登陆注册

字节推多模态理解和图像定位模型LEGO

  • 字节推多模态理解和图像定位模型LEGO 具备精准定位的能力

    LEGO是一个由字节跳动和复旦大学联合研发的多模态理解和图像定位模型。这一模型具有处理和理解多种类型的输入的能力,包括图像、音频和视频。同时,LEGO还具备精准定位的能力,能够在图像中标识出物体的具体位置,在视频中指出特定事件发生的时间点,在音频中识别出特定声音的来源。
    站长网2024-01-15 15:25:55
    0002