Meta 停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源
版权问题引发大规模的生成式人工智能争议,Meta 试图以不公开训练数据的方式规避争议。
周二,社交媒体巨头 Meta 发布了一款名为 Llama 2 的庞大新模型,但在研究论文中几乎没有透露使用了哪些数据。「新的公开可用的在线数据,」Meta 的研究人员在论文中写道,几乎没有其他信息。
这是不同寻常的。迄今为止,人工智能行业一直对模型的训练数据持开放态度。原因在于:这种强大的技术必须被理解,其输出必须尽可能地可解释和可追溯,以便研究人员在出现问题时可以进行修复。训练数据对这些模型的性能至关重要。
例如,原始的 Transformer 研究论文揭示了用于训练的详细数据。其中包括来自WSJ 的约 40,000 个句子。
Meta 在今年二月发布第一版 LLaMA 时,论文中列出了所有的训练数据。它包括一堆图书和 Common Crawl 数据集,这是一个自 2008 年以来积累的庞大互联网副本,存储在亚马逊的云端,随时可以下载。该数据集占 Meta 用于训练 LLaMA 的信息的三分之二以上。
而在过去五个月里,出版商、作家和其他创作者突然意识到他们的作品被用于训练所有这些人工智能模型。他们并没有被征求许可。
已经有一系列诉讼挑战了科技公司使用这些信息训练 AI 模型的权利。Sarah Silverman的投诉可能是迄今为止最有名的一个。
对于大型科技公司来说,他们知道这是一个风险。微软作为产业领导者 OpenAI 的支持者,最近在其季度 SEC 文件中增加了这个风险因素。微软在四月份增加的新部分中强调了版权作为知识产权法的重要组成部分。
谷歌,作为另一个人工智能领域的领导者,不愿为在线内容付费,因为这会削弱其高盈利的商业模式。谷歌的高级法律顾问 Halimah DeLaine Prado 表示,美国法律「支持使用公共信息来创造新的有益用途」,这一观点在法庭上可能占上风。
而 Meta 似乎已经认定,在这个新法律问题得到解决之前,不告诉任何人使用了哪些数据是一个安全的做法。
此外,Meta 可能还有其他原因保持沉默。Lamini AI 创业公司的 CEO Sharon Zhou 提出了一些理论,包括最具争议的一点:Meta 在规避法律责任,公司想要保留将 Llama 2 复制的能力,也有可能是因为整理所有元数据是很费时的工作,所以 Meta 可能会在合适的时候发布训练数据的细节。
对此,Meta 表示,他们将发布模型权重和起始代码,以供开发者使用,并强调他们致力于负责任和道德的开发生成式 AI 产品,确保他们的政策符合不同背景的要求和不断变化的社会期望。
华为“天生会画”App 发布 今日开启公测
今日,华为正式启动了全新自研专业绘画软件“天生会画”的公测,MatePadPro13.2英寸罗兰紫版首发预装。“天生会画”的诞生凝聚了华为技术研发团队在8大领域的专业智慧和努力,同时,这一软件也得到了中国美术学院专业团队的鼎力支持,共同参与了专业笔刷、定制色卡等关键工具的开发与制作。这款软件不仅真实、专业,更融合了智慧与易用性,旨在满足广大创作者的多样化需求。站长网2024-05-15 16:27:170000Meta禁止政治广告商使用生成式人工智能广告工具
据路透社消息,周一,Meta的发言人表示,Meta将禁止政治广告客户使用其新的生成式人工智能广告产品,以避免竞选团队使用这些工具传播错误信息。立法者曾提醒说,这些工具可能会加剧选举错误信息的传播。虽然Meta的决定是限制政治广告客户使用生成式人工智能广告产品,但该公司并未详细说明具体的限制措施。虽然该公司的广告标准禁止含有已被事实核查合作伙伴揭穿的内容的广告,但似乎没有专门针对人工智能的规定。站长网2023-11-07 09:31:520000AI玩毁灭人类游戏,全程自主操控惊呆教授,Claude 3.5硬核实测来袭
Claude游戏测试,能打几分?在持续一个多小时毁灭人类游戏中,Claude能制定出长期策略,令人惊喜的同时,也暴露出了AI短板。若把电脑的操控权交给AI,会发生什么?Anthropic在上周,已初步展示了Claude3.5自动编写网站、填数据表、点外卖的强大能力。那么,Claude打游戏,是否可以通关?最近,来自宾夕法尼亚大学沃顿商学院的教授EthanMollick发现:0000Hugging Face推出新服务Training Cluster 可一键训练模型
近日,人工智能科技公司HuggingFace推出了一项新服务TrainingCluster,用户仅需一键即可对模型进行训练,无需处理复杂的内部过程。这项创新服务将极大地减少用户在深度学习项目中进行模型训练所需的时间和精力。项目地址:https://huggingface.co/training-cluster站长网2023-09-07 11:09:090000腾讯发布多模态音乐生成模型M2UGen 支持图片、视频生成音乐
M2UGen是一款引领潮流的框架,融合了音乐理解和多模态音乐生成任务,旨在助力用户进行音乐艺术创作。通过其强大的功能,M2UGen提供了全方位的音乐生成和编辑体验。体验地址:https://top.aibase.com/tool/m2ugen站长网2024-01-03 11:02:120002