大型科技公司拥才有承担 AI 训练数据成本的能力
划重点:
⭐️ AI 模型训练数据的重要性越来越显著,使得除了最富有的科技公司外,其他公司难以承担成本。
⭐️ 数据采集与整理对生成式 AI 的改进至关重要,这为大型科技公司带来了竞争优势。
⭐️ 尽管一些非营利组织正在尝试开放式数据集的创建,但大型科技巨头仍占据着 AI 训练数据市场的主导地位。
AI 的发展离不开数据,而这种数据的成本越来越高,这使得除了最富有的科技公司外,其他公司难以承担这一成本。根据去年 OpenAI 的研究人员 James Betker 的文章,AI 模型的训练数据是决定模型能力的关键因素。传统的 AI 系统主要是基于统计机器,通过大量示例来猜测最 “合理” 的数据分布,因此模型所依赖的数据量越大,性能就越好。
AI 研究非营利机构 AI2的高级研究科学家 Kyle Lo 指出,Meta 的 Llama3模型在数据量方面明显优于 AI2的 OLMo 模型,这解释了其在许多流行 AI 基准测试中的优势。然而,并不是数据量越大,模型性能就会线性提升,数据质量和整理同样重要,有时甚至比数量更重要。一些 AI 模型是通过让人类标注数据来进行训练的,质量较高的标注对模型性能有巨大影响。
然而,Lo 等专家担心,对大型、高质量训练数据集的需求将 AI 发展集中在少数具备数十亿美元预算的公司手中。尽管一些非法甚至犯罪行为可能会对数据获取方式提出质疑,但技术巨头凭借资金实力能够获取数据许可。这些数据交易的过程并未促进一个公平开放的生成式 AI 生态系统,让整个 AI 研究社区备受其害。
一些独立、非营利性的组织尝试开放大规模数据集,如 EleutherAI 和 Hugging Face,但它们是否能赶上大型科技公司的步伐仍是一个未知数。只有当研究突破技术壁垒,数据收集和整理成本不再是问题时,这些开放性的数据集才有希望与科技巨头竞争。
AI这么火,百度究竟赚了多少钱?
AI时代,百度备受关注。2024年2月28日,百度发布最新财报,2023年第四季度营业收入为349.51亿元,同比增长6%,而净利润为77.55亿元,同比增长44%;2023年全年营业收入为1345.98亿元,同比增长9%,而净利润为287亿元,同比增长39%。论增速,净利润远远高于营业收入。站长网2024-02-29 17:10:190000LLM-Shearing大模型剪枝法:用5%的成本拿下SOTA,比从头开始预训练更划算
要点:1.陈丹琦团队开发了LLM-Shearing大模型剪枝法,可以将大型预训练模型剪枝至低成本,但高性能水平。2.剪枝方法将模型剪枝看作一种约束优化问题,同时学习剪枝掩码矩阵以最大化性能为目标。3.这种方法提供了一种有效的方式,可用于将剪枝后的模型继续预训练,最终超越从头开始预训练的模型。站长网2023-10-12 14:48:430000巴西政治人物承认使用ChatGPT起草新法案,未告知议会
划重点:1.巴西南部城市通过ChatGPT撰写的全国首例法案,政治人物RamiroRosário承认使用AI草拟法案,未告知议会,但法案顺利通过。2.Rosário表示,他故意未在提案前透露使用人工智能的事实,以避免因为提案由AI起草而导致否决,强调人工智能也可用于善。站长网2023-12-06 10:27:390000腾讯混元发布开源文生图大模型混元DiT加速库 生图时间缩短75%
腾讯混元发布了针对开源文生图大模型混元DiT的加速库,可将推理时间缩短75%,生图时间大幅缩短。混元DiT模型也已部署至HuggingFaceDiffusers通用模型库,用户可通过三行代码调用模型,无需下载原始代码。通过知识蒸馏和TensorRT高性能推理框架,实现了DiT模型的采样步数压缩与高效推理部署,推理时间缩短75%。站长网2024-06-06 20:58:090000TikTok邀请美国卖家测试应用内购物功能
据报道,TikTok正在美国邀请新的卖家测试其内部购物功能,为他们提供大量的运费和销售补贴,并向用户提供优惠券以促进卖家的销售。TikTok邀请新的美国卖家在其应用上创建商店,并通过视频和直播中的可点击链接推广他们的商品。为了吸引新的卖家和鼓励用户在应用内购买,TikTok还提供了免费送货,并全额或部分补贴了商品促销折扣。站长网2023-04-12 18:11:150000