Meta 停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源
版权问题引发大规模的生成式人工智能争议,Meta 试图以不公开训练数据的方式规避争议。

周二,社交媒体巨头 Meta 发布了一款名为 Llama 2 的庞大新模型,但在研究论文中几乎没有透露使用了哪些数据。「新的公开可用的在线数据,」Meta 的研究人员在论文中写道,几乎没有其他信息。
这是不同寻常的。迄今为止,人工智能行业一直对模型的训练数据持开放态度。原因在于:这种强大的技术必须被理解,其输出必须尽可能地可解释和可追溯,以便研究人员在出现问题时可以进行修复。训练数据对这些模型的性能至关重要。
例如,原始的 Transformer 研究论文揭示了用于训练的详细数据。其中包括来自WSJ 的约 40,000 个句子。
Meta 在今年二月发布第一版 LLaMA 时,论文中列出了所有的训练数据。它包括一堆图书和 Common Crawl 数据集,这是一个自 2008 年以来积累的庞大互联网副本,存储在亚马逊的云端,随时可以下载。该数据集占 Meta 用于训练 LLaMA 的信息的三分之二以上。
而在过去五个月里,出版商、作家和其他创作者突然意识到他们的作品被用于训练所有这些人工智能模型。他们并没有被征求许可。
已经有一系列诉讼挑战了科技公司使用这些信息训练 AI 模型的权利。Sarah Silverman的投诉可能是迄今为止最有名的一个。
对于大型科技公司来说,他们知道这是一个风险。微软作为产业领导者 OpenAI 的支持者,最近在其季度 SEC 文件中增加了这个风险因素。微软在四月份增加的新部分中强调了版权作为知识产权法的重要组成部分。
谷歌,作为另一个人工智能领域的领导者,不愿为在线内容付费,因为这会削弱其高盈利的商业模式。谷歌的高级法律顾问 Halimah DeLaine Prado 表示,美国法律「支持使用公共信息来创造新的有益用途」,这一观点在法庭上可能占上风。
而 Meta 似乎已经认定,在这个新法律问题得到解决之前,不告诉任何人使用了哪些数据是一个安全的做法。
此外,Meta 可能还有其他原因保持沉默。Lamini AI 创业公司的 CEO Sharon Zhou 提出了一些理论,包括最具争议的一点:Meta 在规避法律责任,公司想要保留将 Llama 2 复制的能力,也有可能是因为整理所有元数据是很费时的工作,所以 Meta 可能会在合适的时候发布训练数据的细节。
对此,Meta 表示,他们将发布模型权重和起始代码,以供开发者使用,并强调他们致力于负责任和道德的开发生成式 AI 产品,确保他们的政策符合不同背景的要求和不断变化的社会期望。
三星,How old are you?
三星发布的S23,确实,算是一台不错的手机。但,要说三星做「小屏旗舰」的巅峰。那机哥觉得,显然还得是三年前发布的三星S20。和现在2K分辨率屏幕,成为超大杯独享的情况不同。当年的三星,还是手机中的「屏幕之光」。在中杯、大杯上,三星一律用的是超大杯同款2K屏幕。再加上当年的骁龙865处理器、不错的相机硬件等配置。站长网2023-05-24 12:16:060000华为、小米等将淘汰32位应用:逐步清理 适配64位
快科技6月29日消息,32位应用真的要彻底淘汰了。近日,华为开发者官网发布了一项公告,其中提到华为应用市场将全面推行在架应用升级为64位版本。2023年8月1日起,华为应用市场将逐步清理仅支持32位的应用。另外,小米、OPPO、vivo等厂商应用市场此前也已经早早宣布,将于2023年7月1日开始将逐步清理仅支持32位的应用。站长网2023-06-29 23:46:200000美团外卖加大直播投入 邀请明星带货
据报道,5月19日,美团外卖举办了一场神券节的官方直播活动,邀请了明星和艺人参与直播间带货。据了解,参与活动的品牌商家中,茶百道整体交易额已超过一亿;奈雪的茶订单量较上周增长了173%,品牌新客数量增长了249%;麦当劳订单量较上周增长了52%,品牌新客数量增长了153%。站长网2023-05-19 18:15:1700008个月狂赚4亿,平价餐饮卷出百亿上市巨头
资本市场久违的迎来一家连锁餐饮企业。12月20日,小菜园正式在港交所主板挂牌上市,开盘报9.00港元/股,涨5.88%。截至收盘,股价报9.66港元/股,涨幅为14%,总市值为114亿港元。相比于连锁率较高的川菜、湘菜、粤菜等菜系,小菜园主打的是徽菜菜系,价格位于50元~100元的平价餐饮,目前门店规模640余家,皆是直营模式。0000美国议员提案防伪法案:保护演员和歌手免受未经授权AI复制品侵害
划重点:🔍美国一项跨党派提案旨在创建联邦法律,以保护演员、音乐家和其他表演者免受其面孔或声音的未经授权数字复制品的侵害。🔍该提案标准化了有关使用个人面孔、姓名和声音的规则,允许在新闻、公共事务、体育广播、纪录片或传记作品的情况下制作数字复制品,但需获得适用个人或权利持有人的同意。站长网2023-10-13 10:14:090000