微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听
站长网2023-11-15 19:25:570阅
要点:
微软Azure AI推出的MM-Vid整合了GPT-4V与专用工具,能解读长达一小时的视频并为视障人士提供解说。
MM-Vid通过将长视频分解成连贯叙述,结合GPT-4V的多模态理解能力,实现对真实世界视频的全面理解。
实验证明MM-Vid在任务如问答、多模态推理、人物识别、音频描述等方面表现出色,具备在交互式环境中持续接收流视频帧输入的能力。
近期,微软Azure AI发布了MM-Vid,这是一项结合GPT-4V与专用工具的创新,致力于解读长视频并为视障人士提供更好的体验。
目前,人工智能在长视频理解领域所面临的复杂挑战,包括分析多个片段、提取不同信息源、实时处理动态环境等。而MM-Vid的工作流程,包括多模态预处理、外部知识收集、视频片段描述生成和脚本生成等四个关键模块。通过GPT-4V,MM-Vid能够生成连贯的脚本,为后续任务提供全面的视频理解。
项目地址:https://multimodal-vid.github.io/
实验证明MM-Vid在多个任务上都取得了显著的成果,包括有根据的问答、多模态推理、长视频理解、多视频情景分析等。特别是在人物识别和说话人识别方面,通过采用视觉prompt设计,MM-Vid展现出更高的质量和准确性。
而MM-Vid在交互式环境中的应用,如具身智能体和玩视频游戏,证明其在持续接收流视频帧输入方面的有效性。
综合而言,微软的MM-Vid在大型多模态模型领域取得了显著进展,成功地将GPT-4V与专用工具集成,为视频理解提供了更强大的解决方案,不仅满足了常规视频理解的需求,还为视障人士提供了更丰富的体验。这一创新有望推动视觉领域的发展,使得语言模型在多模态环境下的应用更加广泛。
0000
评论列表
共(0)条相关推荐
2023最后一战:用搜索商品卡推广,抢占抖音搜索爆发机遇
01品牌商家有了新利器双十一结束后,很多商家在修整,但优秀的品牌又摸索出了新的经营机会。比如百草味,为了拓展抖音商城的客流,投放搜索商品卡推广,ROI平均达到2.5以上,相比投放前一周商品卡GMV增长110%;另一个品牌拇指白小T,通过搜索商品卡推广为主推的单品预热蓄水并累计销量,成功将主推单品的商品货架排名提升10位,ROI相比非商品卡推广高出30%。站长网2023-12-04 16:16:480000Nvidia 表示已有2万家 GenAI 初创公司正在其平台上开发
划重点:⭐Nvidia首席执行官JensenHuang强调,有20,000家GenAI初创公司正在其加速计算平台上开发。⭐需求激增导致Nvidia供应无法满足,首席执行官表示将持续到2024年。⭐Nvidia正积极推进以太网网络,以拓展人工智能计算领域。站长网2024-05-24 11:06:130000华为理想懵了!何小鹏:为什么说小鹏的智驾才是真正全国都能开
快科技7月26日消息,小鹏将于本月底举行AI智驾技术发布会,今日小鹏汽车CEO何小鹏回答了为什么说小鹏的智驾才是真正全国都能开?”何小鹏称,现在市场上有不同的高阶自动驾驶解决方案,因为很多方案都是我们曾经经历过的,因此很多鹏友横向测试看到不同结果是很正常的。算法规则时代:站长网2024-07-26 17:58:100001ChatTTS:一个专为对话场景设计的语音生成模型
ChatTTS是一个为对话场景设计的语音生成模型,专门用于大型语言模型(LLM)助手的对话任务、对话语音和视频介绍等应用。这个模型支持中文和英文,并且在视频中展示的是中等参数的版本,使用了约10万小时的中英文数据进行训练。项目团队在视频中明确表示,虽然他们感谢关注,但可能不会开源视频中展示的版本,因为该版本使用了大量互联网数据,并进行了特定的训练方式,可能涉及法律风险。站长网2024-05-28 19:35:4400081谷歌 Lookout 软件 AI 新功能帮助盲人更好地了解数字图片信息
谷歌官方日前分享了其Lookout软件的最新更新细节,该软件于2019年首次推出,利用人工智能处理图像的Alt文本信息,并允许用户与系统进行问答式会话。这一功能基于GoogleDeepMind开发的先进视觉语言模型。Lookout软件目前正处于测试版,并经过与英国皇家盲人协会(RNIB)的密切合作开发,邀请有限的人测试这一功能,并计划很快向更多人提供这一功能。站长网2023-05-22 15:17:350000