登陆注册

微软用GPT

  • 微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听

    要点:微软AzureAI推出的MM-Vid整合了GPT-4V与专用工具,能解读长达一小时的视频并为视障人士提供解说。MM-Vid通过将长视频分解成连贯叙述,结合GPT-4V的多模态理解能力,实现对真实世界视频的全面理解。实验证明MM-Vid在任务如问答、多模态推理、人物识别、音频描述等方面表现出色,具备在交互式环境中持续接收流视频帧输入的能力。
    站长网2023-11-15 19:25:57
    0000