首页 > 财税观点 > 财税观点 > AI首次实时生成视频!尤洋团队新作,网友:这是新纪元

AI首次实时生成视频!尤洋团队新作,网友:这是新纪元

发布时间:2024-06-29 16:41:19

这是团队在Open-Sora上,使用5个4s(192帧)480p分辨率视频进行的测试。

新方法名为Pyramid Attention Broadcast(PAB),由新加坡国立大学尤洋以及3位学生推出。

 

具体来说,PAB通过减少冗余注意力计算,可实现高达21.6FPS10.6倍加速,并且不会牺牲基于DiT的流行视频生成模型(包括Open-Sora、Open-Sora-Plan和Latte)的质量。

作为一种免训练方法,PAB可为将来任何基于DiT的视频生成模型提供实时功能。

看完效果对比,网友们纷纷惊叹:

这将是新纪元。

 

也引来了众多专业人士的转发和点评,如MIT博士Yilun Du表示:

是一个展示了如何将视频生成加速到实时速度的酷炫工作!可能会为视频策略和模拟的现实世界用例开辟新的领域。

 

那么,新方法具体如何破解实时生成视频这个难题的呢?

减少冗余注意力计算

一开始,团队比较了当前扩散步骤与前一步骤的注意力输出差异

这些差异通过均方误差(MSE)进行量化,并对每个扩散步骤的所有层进行平均。

团队捕捉到两个关键信息

  • 随着时间推移,注意力差异遵循U形模式,中间70%差异较小
  • 注意力差异的排序为:空间>时间>交叉

 

具体而言,不同时间步骤的注意力差异呈现出U形模式,在第一步和最后一步的15%步骤中发生显著变化,而中间70%的步骤非常稳定,差异很小。

其次,在稳定的中间部分,不同类型的注意力表现出差异:空间注意力变化最大,涉及高频元素,如边缘和纹理;时间注意力显示出与视频中的运动和动态相关的中频变化;跨模态注意力最为稳定,它将文本与视频内容联系起来,类似于反映文本语义的低频信号。

对此,团队正式提出用PAB来减少不必要的注意力计算

 

PAB通过根据每种注意力的差异将注意力输出到不同的后续步骤,从而节省计算量。

举个例子,就像广播电台把一个信号发送给多个听众一样,如果某个步骤的注意力结果在接下来的几个步骤中仍然适用,就不需要重新计算,而是直接使用之前的结果。

团队发现,即使没有后期训练,这种简单策略也能实现高达35%的加速,并且质量损失可以忽略不计。

为了进一步增强PAB,团队基于动态序列并行(DSP)改进了序列并行。

 

序列并行通过在多个GPU上分割视频以降低延迟,但DSP带来的时间注意力需两次全对全通信,导致高通信开销。

而PAB由于时间注意力不再需要被计算,使这些通信开销减少了50%以上,从而优化了实时视频生成的分布式推理效率。

借助并行功能,PAB可实现高达21.6FPS10.6倍加速,并且不会牺牲基于DiT的流行视频生成模型(包括Open-Sora、Open-Sora-Plan和Latte)的质量。

财税观点更多>>

安全启动双漏洞曝光,微软已修补其中之一 高通CEO公布骁龙AI PC最新进展,颠覆性技术价值显现 残值高45%:苹果iPhone为什么比安卓手机更耐用 小米 REDMI K Pad 平板现身 Geekbench:天玑 9400 + 处理器,多核跑分超 8900 【查询通道公布】2025泉州民办初中招生第一批电脑派位举行 三星Galaxy Z Fold7发布,机身更薄续航引担忧 玩家国度ROG华硕PG27UQR显示器天猫优惠 5月新能源出口暴涨996%,中国皮卡″出海救市″ 2025年新能源汽车下乡全国首站在江苏如皋启幕 ID.3 GTX套件款重磅上市 上汽大众2025 ID.Festival与用户玩在一起 武汉蔚来能源有限公司增资至17.84亿元 为何越来越多人买二手房?内行人说出了实情,原来藏着这些猫腻 均价涨至3.6万+,广州楼盘涨价了? iPhone 16 Pro体验:新一代钉子户神机预定 猛降1000!荣耀GT开启“狂暴价”! 618两千档手机对决!谁才是性价比王上王? 华为Pura 80系列正式亮相,四款机型诠释影像新高度 从鸿蒙 5到影像再到通信,华为nova 14系列是怎样赢得年轻人的? 中国邮政首次内陆长距离固定翼无人机往返载货运输试飞成功 科睿F50X3S显示器评测:高性价比电竞显示器的标杆之作 财经观察:养老机器人新部署,加速企业开拓新场景 话剧《长安的荔枝》上海首演成功! 中国戏台上的主角, 配角的精彩, 多样角色展现魅力 坐行天地间,笔绘万邦情!轮椅画家秦百兰现身香港文博会,续写艺术与文明的对话 赵云与马超到底谁更厉害?根据正史分析,两人根本就不在同一层次 南宋刘过:秀才休离愁,留下一首经典诗词,让无数中年人俯首叹息 《清明上河图》钞券版:艺术与科技的完美融合 薇娅被曝隐秘“复出”!小程序出镜带货,多款商品售罄,夫妇二人资本动作不断 百果园技术申请直播互动管理方法等专利 提高视频直播的互动效果 支持转发笔记消息,微信鸿蒙版App获1.0.7.35正式版本更新