微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型
站长网2023-07-20 17:17:190阅
人工智能公司 Cohere 的首席执行官 Aiden Gomez 表示,合成数据已经被用来训练人工智能模型。由于 Reddit 和 Twitter 等公司对于其他公司抓取其数据收费高昂,微软、OpenAI 和 Cohere 等 AI 公司正在转向合成数据。
Gomez 透露,合成数据的使用已经非常广泛,但并未广泛宣传。举例来说,如果他们想要训练一个高级数学模型,他们可以设置两个人工智能模型扮演老师和学生的角色,在其中讨论三角学等主题,然后观察的人会在必要时纠正对话。
虽然合成数据已经被用于训练模型,并成为几篇研究论文的重点,但模型主要的训练方式是从互联网上获取数据,包括数字图书、新闻文章、博客、社交媒体、Flickr 等。然后,人类通过强化学习反馈(RLHF)给出反馈并填补信息中的空白。
这种方法存在的一些问题包括可能导致侵犯版权和违反隐私,从而使公司陷入麻烦。Meta 已经停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源。
Financial Times 指出,微软研究的一篇有趣的研究论文名为「教科书就是你所需要的」,它解释了通过用教科书质量的数据训练一个编码模型,该模型在编码任务上表现得相当好。类似的方法也可以用于语言,其中一个模型被训练用简单的单词和句子,然后可以产生流畅和语法正确的故事。
当然,虽然使用合成数据来训练模型可能会取得突破,但公司也必须小心不要使用质量较差的合成数据,否则可能会导致随着时间的推移性能下降。
再加上 OpenAI 和 Anthropic 等公司正在开发的用于减少人工智能幻觉的 chain-of-thought techniques,合成数据可能会帮助人工智能帮助我们解决更多挑战。
0000
评论列表
共(0)条相关推荐
华为 nova 12 系列今日开售 售价2999元起
华为旗下全新手机华为nova12和华为nova12Pro今日上午10点08分正式开售,起价2999元。华为nova12提供8GB256GB和8GB512GB两种存储规格,售价分别为2999元和3399元。而华为nova12Pro则提供12GB256GB和12GB512GB两种配置,售价分别为3999元和4399元。站长网2024-01-05 08:47:400000万物皆可饭圈:中文互联网“饭圈扩大化”现象研究
所谓“饭圈”,本来是对娱乐圈狂热粉丝的一种戏谑性称呼。娱乐圈是一个很大的概念,“饭圈”主要发源于其中的偶像团体这一细分领域,此领域具备如下特点:站长网2023-09-11 09:13:290000工程师将 ChatGPT 和机器狗 Spot 结合起来 以增强沟通能力
在人工智能和机器人越来越流行的世界里,看到工程师如何推动界限,找到使这些机器更有用的新方式,总是非常令人兴奋的。这正是Santiago通过将ChatGPT与BostonDynamics的机器狗Spot结合起来所做的。乍一看,机器狗使用AI模型与人类进行通信可能看起来像是从科幻电影中来的,然而,这种技术的创新实际上是为了使机器狗执行复杂任务更高效。站长网2023-04-27 14:18:490000零沫:AI产品分享社区
零沫(https://0mo.com)是一个AI垂直类的产品分享社区。一直专注AI领域发展,收录了国内外数百个不同类型的AI工具,每日更新和添加最新AI工具,包括自然语言处理、机器学习、计算机视觉等多个领域。无论是想了解最新的AI技术发展趋势,还是要寻找可靠的AI工具,零沫都能为你提供最全面的资讯和资源。零沫作为一个产品分享社区,提供了一些列的社区功能:站长网2024-07-26 09:51:030001字节参战!火山引擎明确不做大模型 但已服务国内七成大模型厂商
“火山引擎自己是不做大模型的,我们首先服务好国内做大模型的厂商,等他们把大模型做好之后,我们再一起合作开展对外的服务。”火山引擎总裁谭待向TechWeb等表示。随着ChatGPT的爆火,国内人工智能领域也风起云涌,互联网科技公司纷纷开启大模型军备竞赛。百度、阿里、360等大厂,以及MiniMax、智谱AI等创业公司,都已相继推出自己的大模型产品,与此同时云市场也在加速变革。站长网2023-04-19 21:05:320000