微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听
站长网2023-11-15 19:25:570阅
要点:
微软Azure AI推出的MM-Vid整合了GPT-4V与专用工具,能解读长达一小时的视频并为视障人士提供解说。
MM-Vid通过将长视频分解成连贯叙述,结合GPT-4V的多模态理解能力,实现对真实世界视频的全面理解。
实验证明MM-Vid在任务如问答、多模态推理、人物识别、音频描述等方面表现出色,具备在交互式环境中持续接收流视频帧输入的能力。
近期,微软Azure AI发布了MM-Vid,这是一项结合GPT-4V与专用工具的创新,致力于解读长视频并为视障人士提供更好的体验。
目前,人工智能在长视频理解领域所面临的复杂挑战,包括分析多个片段、提取不同信息源、实时处理动态环境等。而MM-Vid的工作流程,包括多模态预处理、外部知识收集、视频片段描述生成和脚本生成等四个关键模块。通过GPT-4V,MM-Vid能够生成连贯的脚本,为后续任务提供全面的视频理解。
项目地址:https://multimodal-vid.github.io/
实验证明MM-Vid在多个任务上都取得了显著的成果,包括有根据的问答、多模态推理、长视频理解、多视频情景分析等。特别是在人物识别和说话人识别方面,通过采用视觉prompt设计,MM-Vid展现出更高的质量和准确性。
而MM-Vid在交互式环境中的应用,如具身智能体和玩视频游戏,证明其在持续接收流视频帧输入方面的有效性。
综合而言,微软的MM-Vid在大型多模态模型领域取得了显著进展,成功地将GPT-4V与专用工具集成,为视频理解提供了更强大的解决方案,不仅满足了常规视频理解的需求,还为视障人士提供了更丰富的体验。这一创新有望推动视觉领域的发展,使得语言模型在多模态环境下的应用更加广泛。
0000
评论列表
共(0)条相关推荐
21岁单干18个月,做出98%好评、24万人同时在线的爆款
没想到,2023年最大的黑马,到年尾才登场。12月3日,一款单人开发、零宣发的独立恐怖游戏《LethalCompany(致命公司)》(EA,抢先体验版本),冲到了Steam全球热销第二。此时距离它10月24日正式上架,才刚过去一个月出头。同日,它的同时在线玩家人数也达到了新高——接近24万人。游戏在线人数,图源:SteamCharts0005小米SU7 Ultra预售价81.49万元 将于明年3月正式发布
在今日晚间举办的小米15暨澎湃OS2新品发布会上,小米公司揭晓了小米SU7Ultra量产车的预售信息。小米CEO雷军宣布,该车型预售价格为81.49万元,并计划于明年3月正式亮相。鉴于产能限制,雷军建议有意购买的消费者尽早支付1万元预定金,以便锁定购车机会,同时强调发布后预定金可随时退还。站长网2024-10-30 08:23:110000ChatGPT突然「断网」!OpenAI:别想白嫖付费内容
【新智元导读】ChatGPT联网功能被下架,可能原因是OpenAI要保护内容生产者的权益。ChatGPT突然被断网了!?曾几何时,「联网」功能消除了ChatGPT与现实世界的「时差」,让它能浏览网上的实时内容来生成回答。上线之初,网友们奔走相告,好评如潮。怎么刚刚上线没多久,突然被OpenAI给下架了?站长网2023-07-05 18:20:190000元象开源70亿参数通用大模型 XVERSE-7B 免费可商用
元象宣布开源70亿参数通用大模型XVERSE-7B底座与对话版,这是一款全开源、免费可商用的模型。相比之前的XVERSE-13B,7B版本更小巧,可以在单张消费级显卡上运行,并且推理量化后最低只需6GB显存,大大降低了开发门槛和推理成本。该模型在多项权威测试中表现出色,并具有强大的认知、规划、推理和记忆能力,支持40多种语言。站长网2023-09-27 08:52:580000商汤科技推出基于大模型体系的数字水印解决方案SenseTrust
商汤科技率先推出了基于其大模型体系的数字水印解决方案SenseTrust,以确保数据的可溯源和可追踪性。数字水印是一种将标识信息嵌入到AI生成的数字内容中的技术,可以用于验证内容的真实性和来源,防止虚假信息传播,加强版权保护。商汤的数字水印解决方案结合了传统频域技术、深度学习和扩散模型等技术,可以在不影响生成内容质量的情况下对内容进行确权和溯源。站长网2023-08-31 08:56:530001