12 月 18 日音讯成人色五月,Meta 联袂斯坦福大学,推出全新 AI 模子系列 Apollo,显耀提高机器对视频的交融能力。
IT之家注:尽管东说念主工智能在科罚图像和文本方面取得了繁密越过,但让机器着实交融视频仍然是一个紧要挑战。
视频包含复杂的动态信息,东说念主工智能更难科罚这些信息,不仅需要更多的缠绵能力,何况若何设想最好 AI 视频解读系统,也存在诸多艰涩。
在视频科罚方面,考虑东说念主员发现,保握每秒恒定的帧采样率能取得最好甩掉。因此 Apollo 模子使用两个不同的组件,一个科罚单独的视频帧,而另一个追踪对象和场景若何随时间变化。
此外,在科罚后的视频片断之间添加时间戳,有助于模子交融视觉信息与文本形容之间的推敲,保握时间感知。
在模子磨练方面,团队考虑标明磨练法子比模子大小更迫切。Apollo 模子选择分阶段磨练,按章程激活模子的不同部分,比一次性磨练总共部分甩掉更好。
此外 Meta 公司还不断优化数据组合,发现 10~14% 的文本数据,其余部分稍稍偏向视频实质,不错更好地均衡谈话交融和视频科罚能力。
Apollo 模子在不同范围上均发扬出色,较小的 Apollo-3B 超越了 Qwen2-VL 等同等范围的模子,而 Apollo-7B 越过更大参数的同类模子,Meta 已开源 Apollo 的代码和模子权重,并在 Hugging Face 平台提供公开演示。
【开端:IT之家】成人色五月