OpenAI 宣布自 GPT-4 发布以来的最大更新:ChatGPT 现在可以「看、听、说」
OpenAI宣布,其聊天机器人ChatGPT 现在可以「看、听、说」,或者至少能够理解口语,用合成的声音回应并处理图像。

这次更新是自引入 GPT-4 以来 OpenAI 最大的一次改进。用户可以选择使用五种不同的合成声音与 ChatGPT 进行语音对话,并向其分享图片并突出显示重点或分析区域(例如:「这些是什么类型的云?」)。
这些变化将在未来两周内推出给付费用户。虽然语音功能将仅限于 iOS 和 Android 应用程序,但图像处理功能将适用于所有平台。
OpenAI 在其网站上提供了一个宣传视频,展示了与 ChatGPT 的交流演示:用户询问如何升起自行车座椅,并提供了照片、使用手册和用户工具箱的图片。ChatGPT 会做出反应并建议用户如何完成这一过程。
那么它是如何工作的呢?OpenAI 并未公布 GPT-4 或其多模态功能如何在后台运行的技术细节,但根据其他公司(包括 OpenAI 合作伙伴微软)的已知人工智能研究,多模态人工智能模型通常会将文本和图像转换到一个共享的编码空间,从而使它们能够通过相同的神经网络处理各种类型的数据。OpenAI 可以使用 CLIP 在视觉数据和文本数据之间架起一座桥梁,将图像和文本表征整合到同一个潜在空间(一种矢量化的数据关系网)中。这种技术可以让 ChatGPT 跨文本和图像进行上下文推理,不过这只是一种推测。
此次大规模推广新功能正值聊天机器人领导者之间人工智能竞赛日益升级之际,如 OpenAI、微软、谷歌和 Anthropic 等公司都在努力鼓励消费者采纳生成式人工智能技术,并竞相发布新的聊天机器人应用程序和特性。谷歌已经宣布了 Bard 聊天机器人的一系列更新,微软则为必应添加了视觉搜索功能。
据 PitchBook 报道,今年早些时候,微软扩大了对 OpenAI 的投资——追加 100 亿美元——使其成为本年度最大的人工智能投资。据报道,今年 4 月,这家初创公司完成了 3 亿美元的股票出售,估值在 270 亿至 290 亿美元之间,投资方包括红杉资本(Sequoia Capital)和 Andreessen Horowitz 等公司。
专家们对人工智能生成的合成声音提出了关注,这种技术可以让用户获得更自然的体验,但也可能会产生更令人信服的深度伪造。网络威胁行为者和研究人员已经开始探索如何利用深度伪造来渗透网络安全系统。
OpenAI 在周一发布公告时承认了这些问题,并表示合成声音是「与我们直接合作过的配音演员创作」的,而不是从陌生人那里收集来的。
该公司还未提供有关 OpenAI 将如何使用消费者语音输入或如何保护数据(如果使用的话)的信息。该公司服务条款规定,「在适用法律允许范围内」,消费者拥有其输入内容所有权。
OpenAI 引述了其有关语音交互指南中所述内容,其中指出 OpenAI 不会保留音频剪辑,并且这些剪辑本身并不用于改进模型。但该公司还指出,在此过程中转录被视为输入,并可能用于改进大型语言模型。
AI音乐生成器Beatoven.ai:适用于生成视频、播客和游戏背景音乐
**划重点:**1.🌐利用AI轻松生成适用于视频、播客和游戏的免费背景音乐。2.🎨创作者可选择音乐风格、剪辑内容,并在16种心情中选择,通过一键生成独特音轨。3.🚀应用广泛,适用于制作广告、YouTube、播客、游戏等多种创作场景。站长网2024-01-22 14:26:540001抖音发布高考期间户外直播规范 禁止户外直播干扰考场秩序
抖音发布《关于高考期间户外直播规范的公告》称,2024年高考将至,抖音直播持续治理户外直播不良内容,在此期间尤其对干扰高考秩序的直播行为从严处置,同时呼吁所有MCN机构、主播和用户一起,与平台携手共同营造良好的环境。站长网2024-06-07 09:41:280000Magika:基于AI支持的文件类型检测工具,依靠深度学习提供准确的检测
划重点:1.🔒高效精准:Magika采用定制、高度优化的Keras模型,仅约1MB大小,能够在毫秒内精准识别文件类型,即使在单个CPU上运行也能取得显著提升。2.🚀出色性能:通过在超过100个内容类型的100万多个文件上进行评估,Magika实现了99%以上的精准度,远超其他同类工具,为Gmail、Drive和SafeBrowsing等应用提供了关键的文件安全检测。站长网2024-02-29 16:35:060000百度智能云发布ERNIE Speed、Lite、Tiny 3款轻量级大模型
百度智能云近期举办了盛大的千帆产品发布会,会上重点发布了三款轻量级大模型,它们分别是ERNIESpeed、ERNIELite以及ERNIETiny。相较于那些拥有千亿级别参数的大模型,这些轻量级大模型显著减少了参数量,因此更加便于客户针对特定应用场景进行模型精调。这样的设计不仅有助于客户更容易地实现预期的使用效果,同时也为客户节约了大量的成本开销。站长网2024-03-22 09:35:390000智能手机厂商依赖人工智能和 5G 整合寻求新的增长机会
据Canalys报告,消费者需求不振是智能手机行业面临的最大挑战,导致全球智能手机出货量在2022年跌至12亿部以下。这一现象的原因包括宏观经济的影响和新款手机更新幅度较小导致消费者决定继续使用旧手机,从而延长智能手机的换机周期。站长网2023-04-12 20:59:450001