每天免费100万token,GPT-4o新增微调功能
OpenAI向所有开发者推出GPT-4o数据微调功能,可以使用自己的数据打造准确率、输出模式更好的个性化ChatGPT助手。
例如,韩国最大电信运营商SK Telecom通过OpenAI的数据微调功能,打造了特定的AI助手,使对话总结准确率提高了35%,意图识别率提升了33%,客户满意度大幅度提升。
同时OpenAI宣布从今天到9月23日,每天免费提供100万token微调额度,推理成本每100万token输入3.75美元,每100万token输出15美元。
什么是数据微调
通常大模型是在超大规模数据上进行预训练的,以学习通用的语言知识和输出模式。由于数据过于杂乱,模型可能在金融、法律、医疗等业务中的表现并不理想,因为没有针对特定领域进行专门优化。
而数据微调可以将与特定任务或领域相关的新数据融合到模型中,并使用这些数据来调整模型的参数,使模型能够更好地理解和处理这些特定的数据。
在微调过程中,将收集到的特定任务数据输入到预训练模型中,然后通过反向传播、梯度下降、监督学习等技术,调整模型的参数使其在特定任务上的表现优化,模型会逐步学会识别和处理特定任务的数据模式。
例如,GPT-4o模型只能生成一般性的宽泛文本,但我们想要将其应用于情感分析领域,以判断文本的情感倾向是积极、消极还是中性。
我们就可以收集大量带有情感标注的文本数据,并使用这些数据对模型进行微调。在微调过程中,模型可以更好地学习如何根据文本中的词汇、语法和语义信息来判断情感倾向。
实际微调案例
Genie是上周 AI Agent代码领域杀出的一匹大黑马,其性能超过了同类的Devin、Amazon Q、Swe-agent GPT-4等,而该产品便是基于Genie自有数据在GPT-4o上微调而成。
Genie能够实现跨复杂平台端到端的进行推理,能够像人类那样来修改和检测代码。在GPT-4o的帮助下,Genie 在OpenAI新发布的SWE-bench Verified 基准测试中实现了43.8% SOTA得分。还在 SWE-bench Full 基准测试中取得了30.08% 的得分,也是目前最高的评分。
Harvey是一家专门为律师提供类ChatGPT助手的服务商,为了更好的提升法律内容输出与准确率,使用了OpenAI的GPT-4进行数据微调。
在微调的过程中,他们使用了10亿token的数据,并对模型训练过程的每一步都进行了修改。最终,该AI助手的回答准确率提升了83%,使得律师们更喜欢这种微调的助手。
Distyl是一家为财富500强企业提供 AI 解决方案的合作伙伴,最近在 BIRD-SQL 基准测试中获得了第一名,这是领先的文本到 SQL 基准测试。
Distyl的微调 GPT-4o 模型在排行榜上实现了71.83% 的执行准确率,并在查询重构、意图分类、思维链和自我纠正等任务中表现出色,尤其是在 SQL 生成方面表现尤为突出。
谷歌 Recorder 应用或加入人工智能与 Pixel 8 系列一同亮相
站长之家(ChinaZ.com)8月25日消息:随着Pixel7a和Pixel平板电脑的发布,现在科技爱好者正在迫不及待地等待Pixel8的推出。从软件的角度来看,这次推出可能更加令人兴奋,因为谷歌加倍努力投入生成式人工智能的研究。站长网2023-08-26 10:25:2300009.2mm、226g!荣耀Magic V3刷新折叠屏记录:比直板机还轻薄
快科技7月12日消息,荣耀MagicV3今天下午正式亮相,首次将折叠屏旗舰的厚度做到9.2mm,重量更是只有226g。荣耀MagicV3再一次刷新记录,突破了荣耀MagicV2领先了一年的记录,前代至今都无人打破,新一代又再次实现领先。站长网2024-07-12 15:07:470000被微软“养大”的OpenAI,决定反噬微软
竞争近乎摊牌。8月29日,OpenAI发布了ChatGPT企业版,这是继个人用户争夺之后,OpenAI在企业用户争夺上与微软展开的正面交锋。由此,微软和OpenAI之间的“嫌隙”,双方都不再藏着掖着,被双方塑造成佳话的扶持故事迅速进入直接竞争的阶段。OpenAI和微软的裂痕最早要追溯到去年11月。0000巴菲特股东大会!巴菲特:马斯克智商可能超过170 不想和他竞争
快科技消息,北京时间5月6日晚10点15分,2023年巴菲特股东大会召开,现年已经92岁的巴菲特,和已经99岁的老搭档芒格,出席伯克希尔哈撒韦年度股东大会的问答环节。大会上,有投资者提问问及,马斯克做的企业成功了,芒格有没有改变对马斯克的看法,还问,马斯克有没有高估自己。0000网络安全专家 Mikko Hyppönen 对 2024 年的五大 AI 网络威胁发出警告
在网络安全前线战斗了数十年的MikkoHyppönen,这位54岁的专家最近在一次视频通话中向TNW透露了他对2024年最令人担忧的五大人工智能(AI)网络威胁。这些威胁并没有特定的顺序,尽管其中有一个是导致他最为失眠的。深度伪造(Deepfakes)0000