ChatGPT重磅升级:可以看图、听声音、说话啦!
美东时间9月25日,OpenAI在官网宣布,对ChatGPT进行重磅升级实现看图、听声音、输出语音内容三大功能。
早在今年3月OpenAI发布GPT-4模型时,就展示过看图的功能,但由于安全、功能不完善等原因一直没有开放。现在不仅开放了看图,连识别声音也来了,这是OpenAI实现AGI(通用人工智能)战略重要技术环节。
OpenAI表示,在接下来的两周内,向Plus和企业版用户提供看、听、说功能。语音功能将在 iOS 和 Android上使用,图片识别全平台可以使用。
用语音与ChatGPT交流
ChatGPT新的语音功能由一个文本到语音模型提供支持,能够仅通过文字和几秒钟的样本语音生成类似人类的音频。
OpenAI与专业的配音演员合作,创建了5种合成语音,同时使用了自研开源语音识别系统 Whisper,将用户的语音转录成文本。
简单来说,以后用户想将文本直接生成语音,可以在ChatGPT中完成了。
例如,让ChatGPT听一段小猫咪的文本故事,然后选择人类语音便可以一键完成转录。完成后,用户可以下载这段语音。
story-juniper,AIGC开放社区,34秒
可以向ChatGPT提问图片
用户可以向ChatGPT展示一张或多张图片,提问相关的问题。例如,发送一张坏掉的烧烤炉图片,然后询问无法启动原因;拍摄一张冰箱中的食材,询问多种菜品制作方案。
如果用户只想询问图片中的部分内容,可以通过移动端的绘图功能将其框起来进行发问。
ChatGPT的图片理解功能由 GPT-3.5和GPT-4提供技术支持,可理解的图片类型包括照片、屏幕截图或包含文本的图片等。
提供安全的AI服务
OpenAI表示,其目标是构建既安全又有益的AGI(通用人工智能)。所以,ChatGPT的功能正在逐步推出。这样做的好处是,可以让OpenAI有时间进行改进,逐步完善安全漏洞、风险。
特别是新的语音技术,可以在几秒内就能生成真实的合成声音,这可能会为诈骗者提供了便利条件,所以,这种安全的研发策略对于涉及语音和视觉的高级模型非常重要。
目前,Spotify已经使用ChatGPT的语音功能,开发一款语音翻译助手,可以将博主的声音自动翻译成其他语言,扩大用户群体。而Be My Eyes将ChatGPT的看图功能,植入在应用中,为盲人和弱视群体提供服务。
AI模仿人类已经out了,现在人类模仿AI才是流量密码
人类对AI的应用已然到nextlevel了。前不久用AI修复老照片火爆全网,许多网友用可灵、即梦等AI工具让老照片重新“动”了起来,跨越时空的影像令人动容。抖音#AI修复老照片#话题下的视频播放量超1.3亿,我们看到过去的黑白照片变得栩栩如生,那些美好瞬间再次跃然眼前,热评称“这才是AI技术真正的意义”。然而,画风突变,正当我为AI修复老照片感动时,刷到了一些这样的“AI修复”视频——站长网2024-08-19 08:57:040000Faceswap.dev:一个免费开源的AI换脸工具 高效且安全
Faceswap.dev是一个免费开源的AI换脸软件,可以在视频或图片中进行人脸替换。该软件旨在提供易于使用、高效、安全的Deepfakes工具,并致力于提高用户的道德和法律意识,防止滥用AI换脸技术。Faceswap.dev基于Tensorflow、Keras和Python开发,支持Windows、macOS和Linux系统。站长网2023-08-02 15:11:430000郭明錤:「没有迹象」表明苹果将在 2024 年推出生成式 AI 技术
站长之家(ChinaZ.com)8月3日消息:根据分析师郭明錤的说法,苹果的生成式人工智能技术进展明显落后于竞争对手,并且没有迹象显示该公司计划在明年推出人工智能服务。在Medium上的一篇新文章中,郭明錤解释了苹果即将发布的财报将如何影响苹果股票和供应链。由于在人工智能领域进展不足,该公司在财报电话会议上可能不会花太多时间讨论人工智能。站长网2023-08-03 10:41:330000小米MIX Fold 4配备5100mAh金沙江电池:挑战大折最强续航
快科技7月18日消息,今天,小米宣布MIXFold4配备小米金沙江立体异形电池,这是一款为折叠屏量身定制的新型电池。其空间利用率提升9%,提升260mAh电量,塞进了5100mAh,综合DOU续航高达1.47天,挑战大折最强续航。据悉,小米金沙江电池采用最新一代硅碳负极技术,克容量超越了石墨理论极限克容量的15%。站长网2024-07-18 18:30:470000