当地时间12月9日,美国OpenAI公司正式发布最新版本的视频生成大模型Sora-Turbo,它能够根据文本、图像或视频输入生成新的视频内容,这是继今年2月推出首个版本以来的一次重要迭代。
解放日报电子报12月11日网页截屏(部分)
针对新版本的发布,记者采访了深耕计算机视觉领域的上海交通大学长聘教轨副教授谢伟迪。他表示:“相比第一个版本,Sora新版本显著提升了实用性与技术成熟度。但这次新版本拖的时间太长,其他公司都追赶得差不多了。与国内的视频生成大模型‘可灵’相比,Sora新版本生成的视频没有展示出质的飞跃。”
相比旧版本,Sora-Turbo有哪些“进阶”?谢伟迪表示,早期的Sora更像一个学术雏形,它通过扩展数据量和模型规模,展现了视频生成领域所能迸发的非凡潜力,也为当时的生成模型研究指明了发展方向。尽管当时未产出可供公众使用的成品模型,Sora的探索已有力证明了数据与模型规模提升所带来的惊人效果。
与国内外不少视频生成模型相比,Sora-Turbo如何?谢伟迪说:“虽然Sora-Turbo在生成复杂场景和多主体互动视频时表现不错,能呈现较为真实的动态效果和细腻的画面细节,但在对物理规律的深入理解与物理特性的精确模拟上仍有提升空间。例如,在生成物体运动或光影变化等场景时,其结果可能不太符合现实物理特性。”与像Gen-3这样的轻量化模型相比,其在硬件适配性和生成速度方面还有进一步提升空间,以更好地满足广泛用户的需求。
与部分更强调速度的模型相比,Sora-Turbo更注重生成内容的合规性和道德规范,尤其在需要严格监管的应用场景中具有优势。“Sora目前没有向我们开放,无法进行规模化生成、测试。”谢伟迪说。
视频生成大模型对我们的生活有什么潜在影响?谢伟迪认为:这不仅大幅提升了视频创作效率,还将为游戏的开发、玩耍和体验方式带来创新,为讲故事、互动和沉浸式体验带来新的可能性。
他说,借助视频生成大模型,用户只需提供简短的文本描述,即可自动生成高质量视频。这不仅节省了大量时间,也大幅降低了对专业技能的要求。视频生成大模型的广泛应用有望改变广告营销、产品推广和教育辅导等多个行业的内容创作流程,推动生产力的升级。在娱乐领域,视频生成大模型提供的便利让更多用户能快速创作和分享创意,进一步推动短视频文化的发展,或将催生更多创新形式和互动体验。
但平衡技术创新与隐私保护,是视频生成大模型未来发展的关键所在。建立严格的数据保护措施、透明的使用政策以及完善的内容监管机制不仅是对用户信任的维护,更是推动技术普及与创新的重要基础。
本报记者 黄海华
(责任编辑:孟令娟)