ChatGPT推出语音和图像多模态功能预计未来两周内上线

站长网2023-09-26 08:15:330阅

OpenAI 宣布将在 ChatGPT 中推出新的语音和图像（Voice and image）功能。这些功能可以通过语音对话或展示图片的方式与 ChatGPT 进行交互。

OpenAI举例称，语音和图像功能为您在生活中使用 ChatGPT 提供了更多的方式。您可以在旅行时拍摄地标的照片，并与 ChatGPT 进行有关其有趣之处的实时对话。当您回家时，拍摄您的冰箱和食品储藏室的照片，以确定晚餐的食材，并提出后续问题以获取逐步烹饪指南。晚餐后，您可以通过拍照、圈出问题，并让 ChatGPT 与您和您的孩子分享提示，帮助您解决数学问题。

据悉，若要开始使用语音功能，需要在移动应用程序中进入“设置”然后选择“新功能”，并选择加入语音对话。接着，点击主屏幕右上角的耳机图标，从五种不同的声音中选择您喜欢的声音。而图像理解功能则由多模态GPT-3.5和GPT-4这两个模型提供，它们能够理解和处理各种形式的数据输入，包括文本、语音和图像。

OpenAI表示，语音和图像功能将在未来两周内向 Plus 和企业用户推出。语音功能将在 iOS 和 Android 平台上使用，而图像功能将在所有平台上提供。

ChatGPT推出语音和图像多模态功能预计未来两周内上线

0000

评论列表

共(0)条

相关推荐

站长资讯
Meta开源的密集视频跟踪工具CoTrack
CoTracker是一个用于视频中任意点跟踪的transformer模型。它可以像光流一样跟踪视频中的每个像素、网格点或手动选择的点。
站长网2023-09-01 10:47:31
0000
大模型混战这一年：进化之赛、效率之争、落地之战
日行千里，烈火烹油的两年过去，飞速发展的大模型行业怎么样了?与两年前“百模大战”为技术争夺的景象不同，玩家们有两个速度之争:一是技术迭代和产品更新的速度，二是商业化赚钱和应用落地的速度。技术和产品的迭代很直观，直接推动大模型行业的百舸争流。从语言大模型，到文生视频大模型，再到3D生成大模型，几乎每隔几个月就会有让人眼前一亮的大模型出现。
站长网站长资讯2024-12-09 09:33:13
0000
站长资讯
正交微调解锁文本创建逼真图像新能力实现对生成图像的精确控制
划重点:-研究人员引入正交微调（OFT）方法，极大地增强了对基于文本的图像生成模型的控制能力。-OFT使用正交变换方法，保持神经元之间的关系结构，确保模型的语义生成能力得到保留。-OFT方法在生成质量和效率方面表现出色，具有广泛的实际应用和影响。
站长网2024-01-26 10:30:12
0000
站长资讯
Google Messages 推出 Gemini 功能增强用户交互体验
Google在I/O2024大会上宣布的一项新功能——Gemini，已在GoogleMessages应用中向稳定用户广泛推出。这项新功能紧随GeminiAdvanced中的Gemini1.5Pro和YouTubeMusicGeminiExtension等最近推出的功能。
站长网2024-05-27 15:07:24
0000
站长资讯
今年全球多个亿万富翁财富大增马斯克增长超1000亿美元
随着2023年全球股市的反弹，包括马斯克、扎克伯格、贝佐斯等许多亿万富翁的财富大幅增加。下面一起来看看财富增长最多的几位大佬。站长之家了解到，截至7月10日。埃隆·马斯克今年迄今财富增加了惊人的1060亿美元，这主要得益于特斯拉股价的上涨。目前，马斯克的净资产约为2430亿美元，其中包括价值超过1000亿美元的特斯拉股票，以及他在推特、SpaceX等未上市公司中拥有的大量股权。
站长网2023-07-13 23:56:21
0001