微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型
站长网2023-07-20 17:17:190阅
人工智能公司 Cohere 的首席执行官 Aiden Gomez 表示,合成数据已经被用来训练人工智能模型。由于 Reddit 和 Twitter 等公司对于其他公司抓取其数据收费高昂,微软、OpenAI 和 Cohere 等 AI 公司正在转向合成数据。

Gomez 透露,合成数据的使用已经非常广泛,但并未广泛宣传。举例来说,如果他们想要训练一个高级数学模型,他们可以设置两个人工智能模型扮演老师和学生的角色,在其中讨论三角学等主题,然后观察的人会在必要时纠正对话。
虽然合成数据已经被用于训练模型,并成为几篇研究论文的重点,但模型主要的训练方式是从互联网上获取数据,包括数字图书、新闻文章、博客、社交媒体、Flickr 等。然后,人类通过强化学习反馈(RLHF)给出反馈并填补信息中的空白。
这种方法存在的一些问题包括可能导致侵犯版权和违反隐私,从而使公司陷入麻烦。Meta 已经停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源。
Financial Times 指出,微软研究的一篇有趣的研究论文名为「教科书就是你所需要的」,它解释了通过用教科书质量的数据训练一个编码模型,该模型在编码任务上表现得相当好。类似的方法也可以用于语言,其中一个模型被训练用简单的单词和句子,然后可以产生流畅和语法正确的故事。
当然,虽然使用合成数据来训练模型可能会取得突破,但公司也必须小心不要使用质量较差的合成数据,否则可能会导致随着时间的推移性能下降。
再加上 OpenAI 和 Anthropic 等公司正在开发的用于减少人工智能幻觉的 chain-of-thought techniques,合成数据可能会帮助人工智能帮助我们解决更多挑战。
0000
评论列表
共(0)条相关推荐
Wayfair推生成式AI设计工具Decorify:重新构想室内设计 还能定制买买买
在线家具零售商Wayfair推出了一种名为Decorify的生成式人工智能工具,用于重新构想室内设计过程。用户只需上传自己空间的图片即可开始设计之旅,Decorify会生成多个室内设计选项,并提供购买链接。该工具使用开源扩散模型,可以根据用户的选择生成符合其风格的设计。用户可以点击设计中的元素,并获得类似商品的购买链接。站长网2023-07-26 11:47:330000不想露脸做小红书博主?尝试下这3个氛围感博主!
想做小红书博主但不方便出镜?我建议你尝试这3个氛围感类型博主!什么是氛围感博主?就是整个账号、笔记内容拼尽全力在营造一种氛围,或静谧、清新、解压、放松氛围状态,当用户被氛围触动时,对博主个人关注度反而没有这么高。更重要,氛围感博主和测评、干货类、好物分享类博主,调性会更高,接广告的报价也可设置更高。站长网2023-10-25 20:28:250000wps崩了上热搜 官方回应:正在紧急修复中
今天上午,多名网友反馈,金山文档出现了服务故障,导致WPS共享文档无法正常打开使用。这一情况迅速引起了广泛关注,许多用户在WPS客户服务官方微博下留言询问情况。随后,WPS官方微博发表声明,对用户遇到的不便表示了歉意,并表示技术团队正在紧急进行修复工作。WPS承诺,一旦服务恢复正常,将通过公众号第一时间向用户发出通知,并感谢用户的理解和耐心。站长网2024-08-21 12:00:060000全网播放量超30亿,“自己吓自己”刷屏,硬控抽象网友
2024年不愧是抽象元年,每一个梗都火得出人意料。近期,一部由两人花7年制作的动画电影《美人鱼的夏天》上映院线,其经典片段“自己吓自己”风靡全网,有望拿下2024年压轴抽象梗的称号。该梗出自电影女主哼着歌在河边走的时候,忽然一阵妖风吹过,女主被吓了一跳,环顾自周发现无事发生,于是捋了捋头发说出了那句经典台词“自↓己↘吓↗自己↘~”,但随后她却被突然出现的黑衣男子推下了河。站长网2024-12-13 09:09:000000马斯克成立AI公司「xAI」 此前表示将推出TruthGPT
今日,特斯拉CEO马斯克宣布成立xAI。据介绍,xAI的目标是理解宇宙的真实本质。xAI团队由特斯拉和SpaceX的首席执行官伊隆·马斯克领导。站长网2023-07-13 21:47:390000