《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

站长网2024-05-06 22:17:320阅

等了7分多钟，刚从北京闪现闪离的马斯克，他终于夸我是个人才:

好了，别骂诈骗，我全都招!

现在登录通义App（原通义千问），选择全民演唱功能，只需上传任意一张人物正面大头照，你也能玩儿了。

这个功能开放不到一周时间，但经量子位观察，还挺火。

热度一直没掉下去，关键是生成时间也跟热度一起高居不下，顺利的话几分钟生成的小视频，挤的时候排队能排出好几个小时开外，亏得是阿里云服务器没被挤爆（不是）。

从国内外的网友分享反馈来看，大家还挺喜欢文艺复兴，最受欢迎的片段是让个路人马轮番演唱《野狼Disco》。

除了唱歌，还能把朋友放进（非）著名表情包念台词。

玩儿梗的人太多，以至于马斯克都给搞EMO了:

而这背后的“始作俑者”，就是来自阿里通义实验室的EMO，继Sora之后热度第二高的AI视频项目。

如今一个月过去，星标数已经直奔7k而去。

趁此热度，我们也得到了一个与EMO背后大佬，阿里通义实验室XR实验室负责人薄列峰当面催更的机会。

他表示在放心把技术开源之前，首先还是要解决安全问题。

负责人讲解背后技术

距项目公开仅2个月，通义实验室团队就直接将这一技术免费开放，但所有人都可以在通义APP（原通义千问）体验全新的AIGC玩法。

如果你想亲自上手试试，打开对话输入“EMO”直达或进入“频道”选择“全民舞台”即可。

选择喜欢的音频片段，并上传一张大头照。

如果在热门时段，需要等待40分钟到几个小时不等，但其实主要是在排队。薄列峰透露，单纯生成10秒视频，只需要10-15分钟。

对于上传的照片，系统首先会进行人脸检测，不过有些长得太像人的动物也能顺利蒙混过关!

比如撞脸莫言的小狗，就成功地骗过了系统。

但是撞脸余华的小狗就没那么幸运了，系统一下子就把它给识破了（没有任何对余华老师不敬的意思）。

为什么只需要上传一张图就能立即做到逼真效果?

薄列峰介绍，EMO的核心思路是“弱控制设计”，无需对整个面部建模，这一点甚至体现在了论文标题上。

在生成过程中，面部定位器（Face Locator）用来编码面部的边界框区域。

速度编码器（Speed Encoder）确保头部运动的速度与音频的节奏和强度相匹配。

这些控制机制被称为“弱控制”是因为它们提供的控制不是强制性的或硬性的，而是允许一定程度的自然变化和表现力。

例如，面部区域控制器并不严格限定面部的具体位置，而是给出了一个允许面部运动的较大区域。同样，速度控制器并不精确控制每一帧的速度，而是提供一个速度范围，让生成的头部运动接近但不一定完全符合指定的速度水平。

通过使用这些弱条件，EMO框架能够在保持角色身份一致性的同时，生成具有丰富表情和自然头部运动的视频，从而在表达性和逼真度方面取得更好的效果。

比起传统的分别针对眼睛鼻子嘴等部位的建模方案，EMO更着重考虑整个面部的联合运动，最终效果也就可以做到自然流畅了。

另外薄列峰还透露，选择这个技术路线也是出于实用性、普及性的考虑。

一张图、一段音频，每个人都非常容易获取，门槛低一些，让大家都能玩起来。

关于EMO的技术选择，薄列峰还透露了一个消息。

虽然EMO使用传统基于U-net的扩散模型架构，但Pipeline是解耦的，如果后续尝试Sora同款DiT架构做到更好效果的话，也可以轻松切换过去。

对于未来发展方向，EMO目前只做了人头，将来还会扩展到半身、全身。到时候，能实现一张照片让人物同时唱跳RAP篮球也说不定。

高于平均水平的AIGC内容才会被消费

在此之前，EMO背后通义实验室所推项目中，最火的是与EMO一脉相承的Animate Anyone模型。

代表杰作:奶牛猫跳舞。

算法原理上，EMO和Animate Anyone都采用了Backbone ReferenceNet的结构，实现有参考图像引导的去噪生成过程。

其中，Animate Anyone在实现了保留特定对象ID的生成式模型的基础上，进一步证明可以通过一些输入控制信号控制生成内容，特别是人物的动作。

所以其实背后团队是专注数字人的团队，没想到在通义App上包装成“全民舞王”后，大家对动物玩法更感兴趣。

一个多月前，团队还在全民舞王针对小猫小狗等动物主体检测做了一半优化，使上传动物照片的通过率大幅度提升。

即使检测出来用户上传的是动物，只要通过了骨骼检测，啥小动物都可以起来嗨。

“现在技术确实可以生成很多的图片、视频，但如果他们都是平均甚至低于平均水平，大家不见得有兴趣去消费。”薄列峰笑道，奶牛猫跳舞确实很妖娆，“这给我们把链路打通带来更多的思考——把简单高质量的内容，通过新技术去实现可能。”

聊天最后，薄列峰还给大家推荐了一个EMO的私房玩法:

可以试试拿自己5岁、10岁、15岁……的照片，自己对话，自己合唱。

值得一试哟～

嬛嬛朕emo啦但马斯克阿里这项技术开放试玩

0000

评论列表

共(0)条

相关推荐

站长资讯
OpenAI发布ChatGPT更新或导致部分AI初创公司倒闭
OpenAI发布的ChatGPT更新让几家人工智能公司感到不安。多家AI公司都围绕PDF分析进行构建，OpenAI的最新更新可能会让他们失去武之地。
站长网2023-11-08 10:27:42
0001
站长资讯
OpenAI CEO 表示GPT-5的发布将带来令人激动的事情
划重点:-💡OpenAI公司首席执行官表示，GPT-5的发布即将带来令人激动的事情。-💡据透露，GPT-5预计将于2024年中推出，目前正处于训练阶段。-💡GPT-5预计将是一款大型语言模型，类似于其前身GPT-4，将提供更智能的文本预测能力。
站长网2024-03-23 05:18:24
0000
站长资讯
runway可以让人物面部生成指定表情
今天，runway官方账号宣布运动笔刷功能升级，通过运动笔刷与提示词结合，可以实现对人物面部表情的精准控制。通过这项技术，运动笔刷可以根据提示词快速而准确地在人物面部产生指定的表情，比如开心、恐惧等。这意味着，制作人员可以在创作过程中更加方便地控制人物的表情，让人物形象更加生动。
站长网2023-12-13 10:26:00
0000
站长资讯
AI日报：确认！iOS18将用上ChatGPT；Suno又将推王炸级功能；谷歌AI搜索遭遇滑铁卢；Stable Assistant 可用SD3生成图片；
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、苹果已与OpenAI正式达成协议iOS18将用上ChatGPT【AiBase提要:】
站长网2024-05-27 19:47:15
0000
站长资讯
淘宝直播双11官方玩法公布百亿流量、多重政策扶持
双十一大促即将开启，淘宝直播发布了一系列利好政策信号，多重玩法加持。在活动时间方面，淘宝直播双十一活动将于2023年10月12日启动，共分为5个阶段，其中:【前站】10月12日-10月23日，各直播间双11好货预告，狂撒10亿预定金红包;【预售】10月24日-10月31日，消费者可在此期间支付预定金提前锁定优惠;【开门红】10月31日-11月3日，尾款支付及首波现货爆发;
站长网2023-10-18 21:18:02
0003