微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型
站长网2023-07-20 17:17:190阅
人工智能公司 Cohere 的首席执行官 Aiden Gomez 表示,合成数据已经被用来训练人工智能模型。由于 Reddit 和 Twitter 等公司对于其他公司抓取其数据收费高昂,微软、OpenAI 和 Cohere 等 AI 公司正在转向合成数据。
Gomez 透露,合成数据的使用已经非常广泛,但并未广泛宣传。举例来说,如果他们想要训练一个高级数学模型,他们可以设置两个人工智能模型扮演老师和学生的角色,在其中讨论三角学等主题,然后观察的人会在必要时纠正对话。
虽然合成数据已经被用于训练模型,并成为几篇研究论文的重点,但模型主要的训练方式是从互联网上获取数据,包括数字图书、新闻文章、博客、社交媒体、Flickr 等。然后,人类通过强化学习反馈(RLHF)给出反馈并填补信息中的空白。
这种方法存在的一些问题包括可能导致侵犯版权和违反隐私,从而使公司陷入麻烦。Meta 已经停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源。
Financial Times 指出,微软研究的一篇有趣的研究论文名为「教科书就是你所需要的」,它解释了通过用教科书质量的数据训练一个编码模型,该模型在编码任务上表现得相当好。类似的方法也可以用于语言,其中一个模型被训练用简单的单词和句子,然后可以产生流畅和语法正确的故事。
当然,虽然使用合成数据来训练模型可能会取得突破,但公司也必须小心不要使用质量较差的合成数据,否则可能会导致随着时间的推移性能下降。
再加上 OpenAI 和 Anthropic 等公司正在开发的用于减少人工智能幻觉的 chain-of-thought techniques,合成数据可能会帮助人工智能帮助我们解决更多挑战。
0000
评论列表
共(0)条相关推荐
高转化、高活跃、高黏性的优质社群怎么打造?
在日常社群运营中,品牌通常会遇到的的难点是:如何保持社群活跃状态,持续为转化升单提效?要解决这个难点,首先要明确:社群运营的核心是“人”,辅助因素是产品与服务。因此品牌在社群运营中,需要以用户生命周期为主线,挖掘群内用户共同需求,保证高质量内容与信息的输出,才能保持社群活跃度,完成社群搭建目的。零一数科将其总结为优质社群的36字箴言:站长网2023-06-12 17:13:030000B站给16位UP主颁了个商业奖,释放出哪些信号?
2024年,UP主如何在B站优雅吸金?1月6日的2023百大UP主盛典上,B站公布的16个商业单项奖给出了参考答案。有的UP主从学习博主转型做汽车科普,靠硬核讲解获得粉丝和品牌的双重信任;有的UP主凭借“丝滑”植入,吸引头部品牌稳定复投;还有的UP主精准把握B站用户成长转型需求进军家居带货,双十一创下直播带货全渠道GMV16.8亿元的战绩。0003Alteryx调查:31% 的企业使用生成式人工智能编写代码
本文概要:1.40%的数据分析领导者在工作中使用生成式人工智能,其中31%使用它来编写代码。2.大多数企业对AI感兴趣,但只有少数已经在使用中,并且在利用中寻求优化。3.企业对生成式AI的应用还存在一些担忧,包括数据隐私、结果可信度和专业知识不足等。站长网2023-08-21 16:19:120000黑盒打开,悟空砸掉3A游戏的灵霄宝殿
“是谁谋杀了我们的游戏?”17年前,《黑神话:悟空》制作人冯骥在一篇文章中发出了这样的拷问。那时,这个署名尤卡、只是一个新晋游戏策划的年轻人对游戏市场的种种乱象颇为不满,指责许多游戏策划不玩自家的游戏,天天只琢磨“如何让玩家吐出更多金币”。“路还很长,风还很邪,妖气正冲天。”他在文章结尾写道。站长网2024-08-20 17:20:300000特斯拉Model Y 16万公里实测:耗电2.9万度 平均0.25元/km
快科技12月3日消息,易车原创节目上传了特斯拉ModelY16万公里长测”视频,详细介绍了这辆ModelY工作车,跑16万公里的花费、维修保养、电池衰减以及对比油车能否省钱的真实情况。这辆ModelY出厂时间是2021年,专职司机行驶在各种道路上,高强度使用下,六个月时间行驶了10万公里。站长网2023-12-03 14:09:270000