视频解析工具Video-ChatGPT上线 可用文本描述视频内容
虽然像Runway ML这样的公司在将文本转换为视频方面取得了长足的进步,但 VideoChatGPT却另辟蹊径,赋予语言模型分析视频的能力。Video-ChatGPT 可以用文本描述视频的内容,例如,通过突出显示不寻常的元素来解释为什么剪辑可能很有趣。
开发人员通过一段长颈鹿从跳水板上跳入水中的视频来演示这一点。Video-ChatGPT 指出:“这并不常见,因为长颈鹿并不擅长杂技或潜水。”
链接到开源语言模型的预训练视频编码器
研究人员将 Video-ChatGPT 的设计描述为简单且易于扩展。它使用预训练的视频编码器,并将其与预训练然后微调的语言模型相结合。
尽管名称如此,阿布扎比穆罕默德·本·扎耶德人工智能大学的项目并未使用 OpenAI 技术。相反,研究人员嵌入了一个线性层,将视频编码器连接到语言模型。
除了要求特定任务的用户提示外,语言模型还会使用定义其角色和一般工作的系统命令进行提示。
人机增强数据集
研究人员结合使用人工注释和半自动化方法来生成高质量数据,以微调 Vicuna 模型。这些数据的范围从详细描述到创造性任务和访谈,涵盖了各种不同的概念。
总的来说,该数据集包含大约86,000个高质量的问答,一些由人类注释,一些由 GPT 模型注释,一些由图像分析系统的上下文注释。
Video-ChatGPT 的核心是其结合视频理解和文本生成的能力。它在视频推理、创造力和对时间和空间的理解方面的能力已经过广泛测试。
多模态人工智能未来
在最近文本生成取得重大进展之后,OpenAI 和谷歌等公司正在转向多模态模型。Bard 理解并可以对图像做出反应,并在其正式发布时展示了这些能力。
从图像到移动图像将是下一个合乎逻辑的步骤。谷歌已经宣布开发一款将于今年晚些时候发布的 带有 Project Gemini 的大型多模式 AI 模型。
OpenAI与英国金融时报签署合作协议,为ChatGPT提供许可内容
划重点:⭐️OpenAI与英国金融时报合作,允许ChatGPT使用其内容⭐️OpenAI与多家媒体公司合作以改进AI模型⭐️合作意在提升AI模型的性能并规避权问题站长网2024-04-30 15:53:400000OpenAI预计在未来12个月内有望实现10亿美元营收
根据报道,OpenAI预计在未来12个月内实现10亿美元的营收,超出了之前的预期。这家由微软支持的公司今年早些时候估值为270亿美元。公司的月营收超过8000万美元,较去年的2800万美元有了显著增长,主要归功于其聊天机器人ChatGPT的收费。站长网2023-08-30 08:47:230000工联院大模型测评:文心一言在工业领域表现超过GPT3.5
近期,中国工业互联网研究院针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示,百度文心一言表现超过GPT3.5,综合评价指数在国内排名第一。工联院本次评测选取了工业领域典型的八大行业。百度文心一言在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业均获国内第一。站长网2023-06-29 19:26:300002抖音京东加码小时达,大厂打响即时零售争夺战
小时达已成为大厂角逐零售电商的重要一环。Tech星球独家获悉,抖音小时达的测试范围将进一步扩大,此前曾在深圳等试点城市提供小时达服务,近期,包括武汉、天津等城市的部分生鲜果蔬商家也能使用该服务,如本来鲜、叮咚买菜、物美超市已经开始在抖音内推出一小时果蔬配送服务,而且相关的配送商品已经上架至商家的抖音号内。这意味着,在抖音内,用户已经可以通过小时达服务,享受到买菜、超市购物等便利服务。站长网2023-04-26 15:14:290000鸿蒙星河版WPS来了!核心功能版本已交付:原生开发、无缝协同
快科技3月15日消息,WPS和华为今天官宣,鸿蒙星河版WPSOffice已完成核心功能版本交付。这是金山办公基于鸿蒙星河版(HarmonyOSNEXT)打造的原生应用,基于鸿蒙系统的生互联、原生流畅等特性专门开发。据介绍,鸿蒙星河版WPS不仅能在PC端更流畅运行,还能实现与手机、平板、智慧屏等多种设备之间的无缝流转和跨端协同,带来更智能便利的办公体验。站长网2024-03-15 16:47:400000