ChatGPT推出语音和图像多模态功能 预计未来两周内上线
站长网2023-09-26 08:15:330阅
OpenAI 宣布将在 ChatGPT 中推出新的语音和图像(Voice and image)功能。这些功能可以通过语音对话或展示图片的方式与 ChatGPT 进行交互。

OpenAI举例称,语音和图像功能为您在生活中使用 ChatGPT 提供了更多的方式。您可以在旅行时拍摄地标的照片,并与 ChatGPT 进行有关其有趣之处的实时对话。当您回家时,拍摄您的冰箱和食品储藏室的照片,以确定晚餐的食材,并提出后续问题以获取逐步烹饪指南。晚餐后,您可以通过拍照、圈出问题,并让 ChatGPT 与您和您的孩子分享提示,帮助您解决数学问题。
据悉,若要开始使用语音功能,需要在移动应用程序中进入“设置”然后选择“新功能”,并选择加入语音对话。接着,点击主屏幕右上角的耳机图标,从五种不同的声音中选择您喜欢的声音。而图像理解功能则由多模态GPT-3.5和GPT-4这两个模型提供,它们能够理解和处理各种形式的数据输入,包括文本、语音和图像。
OpenAI表示,语音和图像功能将在未来两周内向 Plus 和 企业 用户推出。语音功能将在 iOS 和 Android 平台上使用,而图像功能将在所有平台上提供。
0000
评论列表
共(0)条相关推荐
Meta开源的密集视频跟踪工具CoTrack
CoTracker是一个用于视频中任意点跟踪的transformer模型。它可以像光流一样跟踪视频中的每个像素、网格点或手动选择的点。站长网2023-09-01 10:47:310000大模型混战这一年: 进化之赛、效率之争、落地之战
日行千里,烈火烹油的两年过去,飞速发展的大模型行业怎么样了?与两年前“百模大战”为技术争夺的景象不同,玩家们有两个速度之争:一是技术迭代和产品更新的速度,二是商业化赚钱和应用落地的速度。技术和产品的迭代很直观,直接推动大模型行业的百舸争流。从语言大模型,到文生视频大模型,再到3D生成大模型,几乎每隔几个月就会有让人眼前一亮的大模型出现。0000正交微调解锁文本创建逼真图像新能力 实现对生成图像的精确控制
划重点:-研究人员引入正交微调(OFT)方法,极大地增强了对基于文本的图像生成模型的控制能力。-OFT使用正交变换方法,保持神经元之间的关系结构,确保模型的语义生成能力得到保留。-OFT方法在生成质量和效率方面表现出色,具有广泛的实际应用和影响。站长网2024-01-26 10:30:120000Google Messages 推出 Gemini 功能 增强用户交互体验
Google在I/O2024大会上宣布的一项新功能——Gemini,已在GoogleMessages应用中向稳定用户广泛推出。这项新功能紧随GeminiAdvanced中的Gemini1.5Pro和YouTubeMusicGeminiExtension等最近推出的功能。站长网2024-05-27 15:07:240000今年全球多个亿万富翁财富大增 马斯克增长超1000亿美元
随着2023年全球股市的反弹,包括马斯克、扎克伯格、贝佐斯等许多亿万富翁的财富大幅增加。下面一起来看看财富增长最多的几位大佬。站长之家了解到,截至7月10日。埃隆·马斯克今年迄今财富增加了惊人的1060亿美元,这主要得益于特斯拉股价的上涨。目前,马斯克的净资产约为2430亿美元,其中包括价值超过1000亿美元的特斯拉股票,以及他在推特、SpaceX等未上市公司中拥有的大量股权。站长网2023-07-13 23:56:210001