外媒:ChatGPT新模型 o4 mini 的“AI幻觉率”高达48%

性能是提升了些,但,“胡说八道”的能力提升得更快,直接登顶……
最近,OpenAI 发布了他们最新的推理型 AI 模型 “o3” 和 “o4 mini” ,它们虽然具备了比上一代更强大的性能,但 AI 幻觉却变得更严重了 —— AI 幻觉是指生成型人工智能编造出实际并不存在的信息,并将其当作事实呈现的现象。
据海外 IT 专业媒体 TechCrunch 报道称,OpenAI 新发布的 o3 模型在 33% 的问题上出现了 AI 幻觉。这一数值是 o1(16%)和 o3 mini(14.8%)的两倍以上。而 o4 mini 模型更加严重 —— 该模型的幻觉率竟然高达 48%,表现出比包括 GPT-4o 在内的现有模型更加不稳定的状态。这一结论是该媒体引援 OpenAI 的 PersonQA 基准测试评估结果而报道的。
OpenAI 在 16 日以 “首款能够将图像融入思考过程的模型” 的口号,隆重介绍并推出这些AI模型。官方解释称,这些模型不仅仅是单纯地识别图像,还能在推理过程中运用视觉信息本身 —— 即 o3 和 o4 mini 模型具备了分析用户上传的图画、图表、图形等内容,以及处理模糊或旋转图像的能力。
在性能方面,在与编码相关的基准测试 SWE 测试中,o3 的得分为 69.1%,o4 mini的得分为 68.1%,不仅超过了之前的模型 o3 mini (49.3%),也高于竞争模型 Claude3.7Sonnet 模型(62.3%)的数值。然而,尽管有这些技术上的进步,AI幻觉出现率却反而比以前有所增加。一直以来,每当有新模型推出时,AI 幻觉的问题都在逐步得到改善,没曾想,OpenAI 这次的新模型却来了个“反其道而行”。
OpenAI 尚未对这一现象的原因给出明确的解释。在技术报告中,分析称:“随着模型需要应对比以前更多的用户请求,不仅是正确的结果,产生错误结果的情况似乎也在增加。” 接着表示,为了查明 AI 幻觉现象增加的确切原因,“需要进行更多的研究”。
人工智能行业认为,此次事件可能会给推理型模型的可靠性带来更多的质疑。特别是在法律、会计、税务等要求高度准确性的行业领域,如果 AI 幻觉问题得不到解决,相关引入推理型 AI 模型的可能性便会减小。
OpenAI 表示:“在所有问题领域完全消除‘幻觉’都是一项持续的研究课题”,并表示 “我们正在继续努力提高准确性和可靠性” 。
抖音:去年6月至今处置宣扬未成年不良行为直播间24916个
抖音公布数据称,2022年6月份至今,抖音直播处置宣扬未成年不良行为的直播间24916个,处置借未成年直播牟利账号1641个,封禁诱导未成年消费账号390个抖音直播表示,关爱保护未成年人健康成长是全社会的共同责任,抖音直播也将切实履行主体责任,维护平台管理秩序,进一步加强对直播账号、内容的管理,建设健康、优质、多元的网络生态,与厂大网友共同守护未成年人群体。站长网2023-07-14 16:01:230002微软发布大规模大气基础模型Aurora,用AI预测全球极端天气
划重点:⭐微软发布首个大规模大气基础模型Aurora,计算速度提高了约5000倍⭐Aurora具备高准确率和效率,可预测和减轻极端天气影响⭐模型可以快速预测大气化学和空气污染,对地球系统建模产生深远影响站长网2024-06-04 14:54:1400022020年最受欢迎的15种商业模式
不少电商平台卖家和提供SaaS效劳创始人以为,构建一个有助于尽可能多地产生收入的业务方式都是至关重要的。很多企业可能以为只需一个方法可以销售自己的产品,在本文中,将跟大家分享增加收入的不同方法和以及相关的案例分析。要记住,那些成功的公司通常会应用多种方式增加收入来源。站长网2020-04-27 14:24:4500012《鱿鱼游戏》杀入体验店 SandboxVR未能复制神话
曾经火爆全网的剧集《鱿鱼游戏》这回真的变成游戏了,而且还是能身临其境去玩的那种。9月底,沉浸式游戏社交公司SandboxVR与全球知名流媒体Netflix合作,将《鱿鱼游戏》搬入VR体验店,用线下场地VR的方式,重现123木头人、抠糖饼等游戏包装下的“大逃杀”剧情,玩家可以组队体验剧集里的惊心场景。据预约页面显示,这场体验的单人门票售价为50-60美元,每个场次需要至少2名玩家组队体验。站长网2023-10-09 12:14:420000赚钱,其实就是卖一个机会。
各位村民好,我是村长。互联网上有许多赚钱的项目,但不管是社群、搞淘客、搞微商、搞社交电商还是搞抖客、搞抖音、搞IP培训,本质上都是在卖一个机会。今天你若能把这个道理想明白了,你在今后做许多项目,不管是招商加盟、亦或是写作、做社群、搞培训、招徒弟等,你就明白了赚钱的内核。01大多数人都在找机会很多人也许对这个概念理解的不够深刻或者说不够直观,我们以现实生活中的例子来和大家分析。0001