Meta 停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源
版权问题引发大规模的生成式人工智能争议,Meta 试图以不公开训练数据的方式规避争议。
周二,社交媒体巨头 Meta 发布了一款名为 Llama 2 的庞大新模型,但在研究论文中几乎没有透露使用了哪些数据。「新的公开可用的在线数据,」Meta 的研究人员在论文中写道,几乎没有其他信息。
这是不同寻常的。迄今为止,人工智能行业一直对模型的训练数据持开放态度。原因在于:这种强大的技术必须被理解,其输出必须尽可能地可解释和可追溯,以便研究人员在出现问题时可以进行修复。训练数据对这些模型的性能至关重要。
例如,原始的 Transformer 研究论文揭示了用于训练的详细数据。其中包括来自WSJ 的约 40,000 个句子。
Meta 在今年二月发布第一版 LLaMA 时,论文中列出了所有的训练数据。它包括一堆图书和 Common Crawl 数据集,这是一个自 2008 年以来积累的庞大互联网副本,存储在亚马逊的云端,随时可以下载。该数据集占 Meta 用于训练 LLaMA 的信息的三分之二以上。
而在过去五个月里,出版商、作家和其他创作者突然意识到他们的作品被用于训练所有这些人工智能模型。他们并没有被征求许可。
已经有一系列诉讼挑战了科技公司使用这些信息训练 AI 模型的权利。Sarah Silverman的投诉可能是迄今为止最有名的一个。
对于大型科技公司来说,他们知道这是一个风险。微软作为产业领导者 OpenAI 的支持者,最近在其季度 SEC 文件中增加了这个风险因素。微软在四月份增加的新部分中强调了版权作为知识产权法的重要组成部分。
谷歌,作为另一个人工智能领域的领导者,不愿为在线内容付费,因为这会削弱其高盈利的商业模式。谷歌的高级法律顾问 Halimah DeLaine Prado 表示,美国法律「支持使用公共信息来创造新的有益用途」,这一观点在法庭上可能占上风。
而 Meta 似乎已经认定,在这个新法律问题得到解决之前,不告诉任何人使用了哪些数据是一个安全的做法。
此外,Meta 可能还有其他原因保持沉默。Lamini AI 创业公司的 CEO Sharon Zhou 提出了一些理论,包括最具争议的一点:Meta 在规避法律责任,公司想要保留将 Llama 2 复制的能力,也有可能是因为整理所有元数据是很费时的工作,所以 Meta 可能会在合适的时候发布训练数据的细节。
对此,Meta 表示,他们将发布模型权重和起始代码,以供开发者使用,并强调他们致力于负责任和道德的开发生成式 AI 产品,确保他们的政策符合不同背景的要求和不断变化的社会期望。
FF发布Q1财报 称FF91已生产40辆
今日,法拉第未来FaradayFuture(FF)发布2023年第一季度财报称,一季度净收入为650万美元,季度损失为1.531亿美元。站长网2023-05-12 14:11:570000大麦开通候补功能 官方回应:适用于部分演出
大麦网官方公告表示,将于今日上线一项新的功能,名为演唱会回流门票候补。此项功能允许用户在演出售罄并且满足平台候补条件(仅限于支持条件退款的电子票演出)时,选择预付全款来候补门票。一旦该项目有新增库存,系统将优先为候补订单进行匹配抢票。站长网2023-11-06 17:26:300000微软必应聊天将推出「#NoSearch」功能:排除网页搜索结果
必应(Bing)的首席执行官MikhailParakhin宣布即将推出「#NoSearch」功能。这一消息是通过Parakhin在官方Twitter账号上的一条推文传达的,他回应了一位用户关于Bing聊天功能的问题。当被问及Bing聊天是否可以在回答中排除网页搜索结果时,他给出了一个暗示,称「#nosearch即将到来」。站长网2023-07-06 18:22:250005比尔及梅琳达盖茨基金会资助中低收入国家近 50 个生成式人工智能项目
比尔及梅琳达·盖茨基金会周三宣布了48个获奖者,他们将获得500万美元的资助,用于开发基于大型语言模型的人工智能应用程序,解决低收入和中等收入国家面临的紧迫问题。站长网2023-08-11 08:48:580000网信办:清理涉企虚假不实等信息8.6万余条
今日,国家网信办发布“清朗·优化营商网络环境保护企业合法权益”专项行动查处一批典型案例称,近期,国家网信办深入推进“清朗·优化营商网络环境保护企业合法权益”专项行动,部署指导地方网信办积极受理处置涉企业、企业家的不法信息,督促微信、微博、抖音等网站平台快速核查处置涉企投诉举报。截至目前,重点网站平台清理涉企虚假不实等信息8.6万余条,依法依约处置账号8425个。站长网2023-08-01 10:04:300000