admin管理员组文章数量:1437908
一分钟生成的《猫和老鼠》火爆全网
除了之前 Sora 曾经公布过能够生成 1 分钟的视频之外(这个功能目前还没有看到 OpenAI 开放出来),目前的一些视频生成软件还是很难够生成 1 分钟超长的视频。
但是这个困难的场景目前被华为 AI 团队给解决了。来自英伟达、斯坦福、UCSD、UC伯克利以及UT Austin研究团队,通过Test-Time Training构建了一个「一分钟视频」生成器。
首先先来看看它生成的《猫和老鼠》的视频:
整个视频生成的 prompt:杰瑞在整洁的厨房里开心地吃着奶酪,直到汤姆调皮地把奶酪拿走并逗他。恼怒之下,杰瑞收拾好行李,拖着一个小行李箱离开了家。后来,汤姆注意到杰瑞不见了,感到很伤心,便一路追寻着杰瑞小小的脚印来到了旧金山。杰瑞沮丧地坐在一条小巷里,汤姆找到了他,并温柔地送上奶酪以表歉意。杰瑞原谅了汤姆,接过奶酪,然后他们一起回了家,他们的友谊也得以修复。
另一个视频,则讲述了:
汤姆和杰瑞去逛一个热闹的嘉年华。汤姆急切地尝试套圈游戏,却屡屡失败,引得杰瑞嘲笑他。汤姆很沮丧,但他下定决心,尽管尽了最大努力,还是没能击倒那个罐子。杰瑞自信地走上前,轻松地成功了,击倒了罐子并赢得了一个闪亮的金质奖杯。杰瑞开心地庆祝自己的胜利,汤姆既惊讶又嫉妒又恼火,他们一起离开嘉年华——杰瑞骄傲地拿着他的奖品,而汤姆则闷闷不乐地跟在后面。
One-Minute Video Generation with Test-Time Training.mp4
这样的视频,都是由模型一次性直接生成的,没有经过编辑、拼接或后处理,每个故事也都是全新创作的。
目前整体的项目已经开源了,如果感兴趣的可以去到 github 网站上进行下载:
具体的模型细节中,从公开的论文上看其实比较简单,在原有的 local attention 上加入了一个叫 test-time-traning layer(TTT layer)。
TTT 的核心思想为:
- 隐藏状态建模为神经网络:将传统 RNN 的固定隐藏状态替换为可训练的神经网络(如两层 MLP),增强模型的表达能力。
- 测试阶段的自监督训练:在生成视频的测试阶段,TTT 层通过自监督学习动态优化隐藏状态,使模型能够更好地适应复杂的输入序列。
在具体的对比效果上看,没有使用 TTT,在生成的视频中:汤姆的颜色、杰瑞的鼠洞之间保持了一致性,但是扭曲了汤姆的身体。
而如果使用了 TTT 之后,在整个1 分钟视频中,表现出了强大的特性和时间一致性
而这项工作获得了网友的一致性认可:
虽然这个模型有明显的优势,但是在一些场景上还是有明显的缺点:
- 时间连贯性:盒子在同一场景的3秒片段之间变形。
One-Minute Video Generation with Test-Time Training(1).mp4
- 动作自然性:奶酪悬停在半空中,而不是自然落到地上。
One-Minute Video Generation with Test-Time Training(2).mp4
- 美学:当汤姆转身时,厨房的光线变得异常明亮。
One-Minute Video Generation with Test-Time Training(3).mp4
和Sora对比
Sora本质上,采用了Transformer架构和扩散模型技术。它能够根据用户输入的文本、图像或视频,生成新的高质量视频内容。Sora支持多种风格和分辨率,生成的视频在真实性和一致性方面表现出色。
但是目前公开版本的 Sora(包括 Sora Turbo)对普通用户开放的最长视频生成时长为 20 秒,分辨率最高为 1080p。这可能是OpenAI出于计算资源和生成效率的考虑。因此,虽然 Sora 技术上具备生成 60 秒视频的能力,但在实际应用中,用户可生成的视频时长可能受到一定限制。
而 TTT 的技术虽然也是基于 Transformer架构,目前还处于一个验证阶段。但是目前已经开放了具体的代码,同时在《猫和老鼠》这个场景下验证了其可行性。TTT 方法主要就是通过动态优化模型的隐藏状态,实现了高质量的长视频生成。
对比 Sora 和 TTT 技术,本质上都是类似的,其两者在技术路径和应用场景上各有优势,未来可能会出现融合这两种方法的混合模型,进一步推动 AI 视频生成技术的发展。
本文标签: 一分钟生成的《猫和老鼠》火爆全网
版权声明:本文标题:一分钟生成的《猫和老鼠》火爆全网 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1747539088a2703685.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论