近日,GitHub开发者Lvmin Zhang与斯坦福大学Maneesh Agrawala联合推出了一项名为FramePack的创新技术。这项技术通过固定长度的时域上下文优化视频扩散模型,大幅降低硬件要求,使普通消费者也能轻松生成高质量AI视频。
传统视频扩散模型因需处理大量带噪帧数据,对显存需求极高,通常需要12GB以上。而FramePack通过压缩帧数据,将其汇集到固定大小的上下文中,显著减少GPU显存开销。基于此架构的130亿参数模型,仅需6GB显存即可生成60秒长的视频片段。
此外,FramePack还引入了缓解“漂移”现象的技术,确保视频质量随长度增加而不显著下降。目前,该技术兼容英伟达RTX 30、40或50系列GPU,并支持Linux系统。以RTX 4090为例,启用teacache优化后,生成速度可达每秒0.6帧。
FramePack的出现为AI视频创作提供了低成本解决方案,尤其适合非专业用户制作GIF动图、表情包等娱乐内容,进一步推动了AI技术的普及。