AI公司用“AI合成数据”来训练AI大语言模型成趋势
站长之家(ChinaZ.com) 导语:AI 公司正试图通过“创造信息”来获得用于训练 AI 系统的大量数据,这被称为 "合成数据"。现在,AI 模型的发展已经达到了人类创造的数据的极限,因此需要新的方法来训练模型。
目前,训练 AI 模型的数据主要来自于互联网,用于训练这些系统的数据包括数字化的图书、新闻文章、博客、搜索查询、Twitter 和 Reddit 帖子、YouTube 视频和 Flickr 图像等内容。
但是随着生成式 AI 技术的发展,即使是资金充裕的 AI 公司也很难找到易获取且高质量的数据。合成数据的使用可以绕过这个问题,公司可以使用 AI 模型生成文本、代码等信息,并用于训练更先进的模型。
根据 Cohere 的首席执行官 Aidan Gomez 的说法,合成数据已经很多,只是没有被广泛传播。例如,为了训练一个模型进行高级数学,Cohere 可能会使用两个互相交流的 AI 模型,其中一个扮演数学导师,另一个扮演学生。Gomez 表示:“他们正在进行三角学的对话…… 这完全是合成的。这些只是模型想象出来的。然后人类观察这段对话,如果模型说错了内容,就进行修正。这是目前的现状。”
微软研究院的两项最新研究表明,合成数据可以用于训练比 OpenAI 的 GPT-4或 Google 的 PaLM-2等最先进的软件更小更简单的模型。其中一篇论文描述了 GPT-4生成的一组短篇故事的合成数据集,该数据集只包含一个典型四岁孩子可能理解的词语。这个数据集被称为 TinyStories,然后用于训练一个简单的 LLM,能够生成流利和符合语法的故事。
另一篇论文展示了可以使用合成的 Python 代码进行训练,这些代码以教科书和练习的形式存在,他们发现这些代码在编码任务上表现相对不错。
一些初创公司如 Scale AI 和 Gretel.ai 已经提供合成数据作为服务,这种数据可以保护个人隐私,同时保持统计数据的完整性。Gretel 由前美国国家安全局和中央情报局的情报分析师创立,与谷歌、汇丰银行、Riot Games 和 Illumina 等公司合作,通过合成数据的方式来增强他们现有的数据,以帮助训练更好的 AI 模型。
然而,使用低质量的合成数据可能会阻碍进展,并可能导致技术的退化。随着 AI 生成的文本和图像开始充斥互联网,AI 公司在搜索训练数据时不可避免地会使用其自身早期版本生成的原始数据,这种现象被称为 “dog-fooding”。一项来自牛津和剑桥等大学的研究最近警告称,训练模型时使用自身的原始输出(可能包含虚假或捏造的信息)可能会逐渐损害和降低技术的质量,造成 “不可逆的缺陷”。尽管存在这些风险,AI 研究人员认为合成数据有助于加速超级智能 AI 系统的发展。
马斯克任意妄为之下,TikTok也盯上了推特的用户
让普通用户也能无障碍体验AI魅力的ChatGPT,毫无疑问已经是近段时间以来最为火热的互联网产品,可要论近年来真真切切改变了整个互联网世界的产品,则非TikTok莫属了。在过去数年间,Tiktok几乎就像流量黑洞一样,吸引了大量用户的关注。如今这款以短视频为基础的产品也已经开始求变,TikTok近日就宣布推出对文本化内容的支持,用户可以直接创建基于文字的内容。站长网2023-07-28 08:52:240002辛巴泰国带货8亿,头部主播卷向海外
辛巴泰国带货8亿一向做人做事都高调的辛巴,这次前往泰国带货,同样声势浩大。5月7日,辛巴和一众徒弟现身泰国曼谷,在泰国的户外文化遗产博物园暹罗古城开启直播带货。从当天的直播表现来看,辛巴保持着自己一贯的高调风格,喊出“泰国特产”、“最低价”、“当场改价”等话术,全程情绪激昂,讲解产品十分卖力。据悉,这场直播开播两分钟,在线观看破百万观看。站长网2023-05-11 09:02:500002英伟达市值超越俄罗斯GDP 逼近2万亿美元
随着科技行业的蓬勃发展,英伟达以其领先的AI芯片技术成为了市场的新宠。截至昨日收盘,英伟达市值逼近2万亿美元,达1.98万亿美元。令人震惊的是,这一数字已经超过了世界上除11个国家以外的所有国家的GDP,其中包括俄罗斯、韩国和澳大利亚等经济大国。站长网2024-02-27 08:29:440000Canalys:预计中国厂商将率先将 AI 手机打入更低价位段
今日分析机构Canalys发布报告称,中国本土智能手机厂商近期积极投资于自主开发的大语言模型(LLM)。随着SoC的更新迭代和市场存储配置的快速升级,中国厂商开始更加聚焦于端侧AI能力。站长网2024-01-10 10:06:140000天涯社区回应被申请破产:还在为重启做努力和准备
站长之家(ChinaZ.com)2月28日消息:近日,天涯社区网络科技股份有限公司新增一则破产审查案件,引发广泛关注。据悉,该案件申请人为张鑫,经办法院为海南省海口市中级人民法院。与此同时,天涯社区官网也显示“无法访问”,令众多网友感到惋惜。站长网2024-02-28 15:30:230000