登陆注册

MM

  • 微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听

    要点:微软AzureAI推出的MM-Vid整合了GPT-4V与专用工具,能解读长达一小时的视频并为视障人士提供解说。MM-Vid通过将长视频分解成连贯叙述,结合GPT-4V的多模态理解能力,实现对真实世界视频的全面理解。实验证明MM-Vid在任务如问答、多模态推理、人物识别、音频描述等方面表现出色,具备在交互式环境中持续接收流视频帧输入的能力。
    站长网2023-11-15 19:25:57
    0000
  • 文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM'23

    【新智元导读】参数高效的微调方法SUR-adapter,可以增强text-to-image扩散模型理解关键词的能力。扩散模型已经成为了主流的文本到图像生成模型,可以基于文本提示的引导,生成高质量且内容丰富的图像。但如果输入的提示过于简洁,现有的模型在语义理解和常识推理方面都存在局限,导致生成的图像质量下降明显。
    站长网2023-08-28 17:46:13
    0000