OpenAI全量上线4o视频通话 - 我们等了7个月。
今天是OpenAI直播第6天,终于来了个能看点的。
Day4是个很无聊的canvas的极小更新以及向全量用户开放,昨晚Day5完全就是给苹果做下PR,都是纯粹的垃圾时间。
而今天,4o的实时视频通话,终于来了。
是不是感觉有点陌生?没想到吧,4o居然还有实时视频通话。。。
鸽了7个月,快被人忘干净了。
总结一下今天的直播,有三个东西:
实时视频通话。
实时理解屏幕。
圣诞老人限定语音。
一个一个说吧。
一.实时视频通话
今年5月14日,OpenAI的春季发布会上,他们正式掏出了GPT-4o。
其中最酷的东西,当然是他们的原生多模态。
大家也都见识到了,高级语音模式的威力,能模仿情绪、能唱歌、能演戏。在小红书和X上,已经看到无数人,在用它来做情感陪伴、练口语等等。
在教育领域,绝对是一个巨大的大杀器。
但是其实,当时最让人兴奋的,还是实时视频。
能实时对话,能理解你的连续性动作,能知道你在干啥。
也有记忆。
比如你跟他聊桌子上的一杯冰美式咖啡,这杯冰美式长的无头六臂奇奇怪怪颜色还是红色的,你们聊的很开心,然后切到了另一个话题,过了一分钟后,你突然问他,咱们刚才聊的咖啡是啥颜色。
它会很准确的告诉你,是红色。
就像,AI第一次,有了跟人类一样的眼睛。
他们自己也演示了一个很有趣的例子。
就是先让ChatGPT跟在座的人聊了一圈,然后问它:
而GPT回答的很好,直接把女生的名字回答的很准确,它记住了她。
然后又演示了另外一个当场教人做咖啡的场景。
我一直觉得,真正的实时视频理解,比语音和文本都重要的多。
因为对于我们人来说,从诞生到世界的第一天,当你还不会说话、还读不懂文字的时候,你理解这个世界,全靠视觉。
这是我们理解世界的基石。
而现在,当你举起一张手写的便签,它能立马看懂;当你你给它看一本杂志上的广告,它能分析背后的设计意图和话术风格;你对着镜头摆弄一件家里的小物件,它能指出其用途、历史、甚至给出改造建议。
这个东西,我觉得还是挺酷的。
今天晚上,他们正式宣布即将上线了。没错,是即将上线。。。
一周以内,对Pro和Plus用户开放。
OpenAI你是真的狗。
其实感觉以OpenAI这段时间直播的节奏,理论上这种功能,应该是跟o1pro和Sora类似,直播完后就直接全量上了。
但是有可能是受到了昨天Gemini2的冲击(他们也有视频理解),又或者是因为昨天早上ChatGPT的全线崩溃。
导致这一波节奏混乱,甚至,我都觉得今晚的直播,都是为了不显得自己丢人,临时换上来的。。。
二.实时理解屏幕
一个基于实时视频理解的变种。
只不过一个是通过摄像头,看外部的现实世界,一个是通过类似于屏幕共享的方式,让它来看你的屏幕。
跟视频实时理解一下,一周内上线。
这个东西,我觉得非常有用,类似于给你一个随时待命给你建议的牛逼助理。
随时看着你的屏幕,然后给你指点。
比如说一些我能想到的最简单的应用场景。
你在写PPT,感觉这页怎么做怎么丑,有点卡壳时,你就可以问它:
"这页的视觉排版逻辑是不是有点问题?"或者"这个配色看起来怪怪的,有没有更好的推荐?"
它就能直接指出核心问题,比如某一页的文字太密集,这个标题应该放在左上角,配图应该换个写实风格的,甚至它还能帮你现场给你一个最优方案,把问题瞬间解决。
再比如,在你写代码的时候,屏幕共享开着,它能实时看你代码的进展,指出可能的错误,甚至直接告诉你哪些变量命名不规范,哪些逻辑可以优化。
你都不用自己debug,它直接化身你的leader,边看边指正。
还有一个我自己觉得最实用的场景,就是处理表格数据。
因为我经常会做各种奇奇怪怪的数据分析,打开Excel的时候真的满屏的数据让你头晕脑胀,这个时候你只需要说一声:
“这份报表有啥什么异值?”或者“能不能帮我画个趋势图?”
当它立马就能帮你分析数据并给出结论的时候,我觉得,这就是帮了我大忙了。
当然,我理想中的最完美的形态,还是跟类似于那种Computer Use的Agent结合,直接帮我把事干了,那才是我最想要的。
比如,我们在用Figma做界面设计的时候,设计到一半,感觉排版不太对劲,于是就可以直接对它说了一句:
“整体简约一点,字体换成无衬线体。”
它立马接管设计,调整了文字间距、对齐方式,还推荐了几种更适合的字体供选择,最终完成一个更专业的设计方案。
甚至,它还能帮你理解背后的设计逻辑那就更屌了。
比如你问它:“为什么这个排版显得更舒服?”
它还能从用户体验的角度出发,解释黄金分割、留白运用等理论,带你快速提升审美和技能。
这个,可能才是我最想要的未来。
也是我觉得,屏幕实时理解的终极形态。
三.圣诞老人限定语音
一个挺抽象的更新,在高级语音里面,新加了一个新的音色。
叫Santa。其实就是个,圣诞老人的语音。
目前已经实时上线了,都可以在高级语音模式里体验到。
也挺抽象的,给大家听一听,我跟他的对话。。。
就,真的抽象。
可能对于老外来说,这个“吼~吼~吼”,真的有节日氛围吧。。。
写在最后
OpenAI直播,已经进行一半了。
稍微盘点一下。
Day1:满血o1上线,ChatGPT Pro会员上线,o1pro推出。
Day2:基于o1的强化微调。
Day3:Sora正式发布。
Day4:ChatGPT Canvas全员开放以及小功能更新。
Day5:给苹果站台,宣传苹果全系接入GPT。
Day6:4o的实时理解上线。
说实话,非常的低于预期,非常的不尽人意,非常的想让我骂他。
每天晚上,都是如坐针毡、如芒刺背、如鲠在喉。
Dalle4呢?AI Agent呢?AI搜索浏览器呢?猎户座新模型呢?
你这都是些啥啊。
最绝望的不是这个,最绝望的是,还有6天。
每天晚上我都会在小群里开腾讯会议,第一天来了80个人,第二天40个,第三天因为预告Sora也有40个,第四天20个,第五天11个。
而今天,只有5个。
真的,已经越来越没有人在乎了。
希望在后面的6天里,奥特曼你能改变一下我对于你的怨气,让我们觉得,OpenAI这么玩,都是策略,是在降低大家预期。
牛逼的东西,其实都放在后面。
真的,求求了。
为了你们自己。
也为了我们这些,每天熬夜的兄弟。
苹果为何做不好AI?
导语:面对苹果今天在AI上的种种困境,人们不禁在想,倘若面对这些难题的是乔布斯,他又会如何决断呢?在今年爆发的AI大战中,微软、谷歌、亚马逊等各个大厂,都纷纷使出了自己的浑身解数,渴望在未来的赛道中抢占先机。然而,同样身为科技界龙头企业的苹果,却在这场竞争中“哑火”了。面对不可忽视的AI大模型浪潮,苹果自己的AI究竟去哪了?站长网2023-05-08 14:54:390000特斯拉推出新一期引荐奖励:购车可减1750元 90天EAP
特斯拉宣布,从今日起,全新一期引荐奖励正式上线。在此次活动中,购车人(含复购)通过好友引荐购买ModelY/S/X车型,可以获得1750元的引荐奖励以及90天增强版辅助驾驶的免费试用权。同时,引荐人也将获得7000分的积分奖励,可以在积分商城内兑换超级充电里程额度、特斯拉无线话筒、高级车载娱乐包1年试用权以及增强版自动辅助驾驶90天使用权。站长网2023-11-01 10:37:370000AI杀入协同办公,谁能拿到安全牌?
大模型落地的第一场交锋,精准落在协同办公。最早具备先发优势的是微软,凭借与OpenAI的资本关系,微软先是在2月份将GPT接入搜索Bing,3月份又甩出一张王炸,Office全家桶接入GPT-4,推出Microsoft365Copilot。微软公司董事长兼CEO纳德拉将这个动作视为一个重要分水岭,「这将从根本上改变我们的工作方式,并开启新一波生产力增长。」这股旋风很快刮到国内。站长网2023-05-05 11:10:190001荣耀Magic V2发布 赵明称折叠手机进入毫米级时代
荣耀公司在昨日举行的新品发布会上,正式推出了荣耀MagicV2。这款手机采用了第二代骁龙8领先版,并通过新材料和新技术的应用,将机身厚度和重量进一步降低,展现了荣耀公司在技术创新和产品设计上的不懈追求。站长网2023-07-13 21:47:410000腾讯微信视频号拟限制数字人带货
站长之家(ChinaZ.com)6月18日消息:腾讯视频号近日宣布了对《视频号橱窗达人发布低质量内容实施细则》的修订,旨在加强内容质量监管,并拟禁止数字人直播带货。该修订于今年6月7日至6月13日公开征集意见。在最新修订中,视频号将“挂机录播”概念扩展为“非真实直播”内容,明确禁止在直播过程中使用非实时直播内容或道具来替代真实直播。相关违规示例包括使用插件、AI等工具生成虚拟形象进行直播。站长网2024-06-18 20:40:330000