大型科技公司拥才有承担 AI 训练数据成本的能力
划重点:
⭐️ AI 模型训练数据的重要性越来越显著,使得除了最富有的科技公司外,其他公司难以承担成本。
⭐️ 数据采集与整理对生成式 AI 的改进至关重要,这为大型科技公司带来了竞争优势。
⭐️ 尽管一些非营利组织正在尝试开放式数据集的创建,但大型科技巨头仍占据着 AI 训练数据市场的主导地位。
AI 的发展离不开数据,而这种数据的成本越来越高,这使得除了最富有的科技公司外,其他公司难以承担这一成本。根据去年 OpenAI 的研究人员 James Betker 的文章,AI 模型的训练数据是决定模型能力的关键因素。传统的 AI 系统主要是基于统计机器,通过大量示例来猜测最 “合理” 的数据分布,因此模型所依赖的数据量越大,性能就越好。
AI 研究非营利机构 AI2的高级研究科学家 Kyle Lo 指出,Meta 的 Llama3模型在数据量方面明显优于 AI2的 OLMo 模型,这解释了其在许多流行 AI 基准测试中的优势。然而,并不是数据量越大,模型性能就会线性提升,数据质量和整理同样重要,有时甚至比数量更重要。一些 AI 模型是通过让人类标注数据来进行训练的,质量较高的标注对模型性能有巨大影响。
然而,Lo 等专家担心,对大型、高质量训练数据集的需求将 AI 发展集中在少数具备数十亿美元预算的公司手中。尽管一些非法甚至犯罪行为可能会对数据获取方式提出质疑,但技术巨头凭借资金实力能够获取数据许可。这些数据交易的过程并未促进一个公平开放的生成式 AI 生态系统,让整个 AI 研究社区备受其害。
一些独立、非营利性的组织尝试开放大规模数据集,如 EleutherAI 和 Hugging Face,但它们是否能赶上大型科技公司的步伐仍是一个未知数。只有当研究突破技术壁垒,数据收集和整理成本不再是问题时,这些开放性的数据集才有希望与科技巨头竞争。
娜乌斯嘉发布AI丝滑变装视频 抖音获赞超13万
最近,抖音博主“娜乌斯嘉AI”发布了一段令人惊叹的40秒AI丝滑变装视频,该视频在短时间内获得了超过13万次点赞,展现了一名女生从早到晚的生活变迁。站长网2023-10-31 14:08:130000退出印度芯片制造了?富士康回应
凤凰网科技讯北京时间7月11日消息,在周一宣布退出价值195亿美元的印度芯片制造合资项目后,富士康在印度的布局备受关注。富士康周二发表声明,再次进行了解释。谈到公司与印度金属石油企业集团Vedanta的“分手”,富士康表示,“双方都认识到这个项目进展不够快”,而且还有其他“我们无法顺利克服的挑战性分歧”,但是“这不算负面消息”。富士康没有透露更多细节。站长网2023-07-12 11:35:340000斯坦福炒虾机器人爆火全网!成本仅22万元,能做菜还会洗碗
要点:斯坦福华人团队开发的炒虾机器人MobileALOHA刷屏全网,能完成各种复杂任务,项目成本仅为22万元,全部开源。该机器人通过模仿学习,能够执行各种复杂的任务,并支持全身远程操控。机器人成本低廉,仅为22万元,软件和硬件全部开源。站长网2024-01-04 15:32:390000快递市场管理办法3月1日起施行 未经用户同意放快递柜罚款最高3万元
站长之家(ChinaZ.com)1月5日消息:据交通运输部消息,《快递市场管理办法》已经通过并于2024年3月1日起施行。其中,新公布的《办法》特别强调,经营快递业务的企业未经用户同意,不得代为确认收到快件,也不得擅自将快件投递到智能快件箱、快递服务站等快递末端服务设施。站长网2024-01-05 14:26:460000李彦宏:百度文心一言4.0中文已超过ChatGPT 4.0
快科技3月10日消息,日前,百度创始人李彦宏在央视2024《对话开年说》节目中谈到了百度文心一言。李彦宏表示,文心一言4.0在中文上已经超过ChatGPT4.0。比如写藏头诗,现在很多大模型都能写,但如果要求它写一个《沁园春》词牌的词,ChatGPT4.0就完全搞不懂,它不知道第一句话应该是四个字还是五个字。0000