研究发现大型 AI 数据集包含虐待儿童图像:该数据集已用于构建流行的人工智能图像生成器,包括 Stable Diffusion
根据斯坦福互联网观察站周三发布的一项新研究,流行的人工智能(AI)图像生成器的基础数据库中隐藏着数千张儿童性虐待图片(CSAM)。作为对这一研究的回应,一些最大和最常用的图像数据库的运营商关闭了对它们的访问权限。
斯坦福大学的这个监督团队与加拿大儿童保护中心以及其他反虐待慈善机构合作,在巨大的 AI 数据库 LAION 中发现了超过 3200 张涉嫌儿童性虐待的图片,并向执法部门报告了原始照片链接。其中 1000 多张涉嫌图片被确认为儿童性虐待材料。
研究者们写道:「我们发现即使在 2023 年晚些时候,拥有 LAION-5B 数据集也意味着拥有数千张非法图片。」
对此,LAION 在斯坦福互联网观察站报告发布前夕做出了迅速反应,宣布暂时撤下其数据集。LAION(代表非营利性的大规模人工智能开放网络)在一份声明中表示,「我们对非法内容采取零容忍政策,出于谨慎考虑,我们已撤下 LAION 数据集,以确保在重新发布之前它们是安全的」。
尽管这些图片只占 LAION 约 58 亿张图片指数的一小部分,斯坦福团队表示,这可能影响 AI 工具生成有害输出的能力,并加剧对多次出现的实际受害者的先前虐待。
研究人员表示,这些图片还使 AI 系统更容易生成虚假儿童的逼真和明确的图像,以及将社交媒体上完全穿着衣服的真实青少年的照片转换为裸体照片,这让全世界的学校和执法部门感到震惊。直到最近,反虐待研究人员认为,一些未经检查的 AI 工具产生虐待儿童的图像的唯一方式是通过结合两类在线图片——成人色情和对孩子的无害照片。
斯坦福互联网观察站呼吁采取更为激进的措施。其中之一是要求所有基于 LAION-5B(包含超过 50 亿张图像文本对)构建训练集的人「删除它们或与中间商合作清理材料」。另一个措施是实际上让去年推出的 Stable Diffusion 的旧版本从互联网上最黑暗的角落消失。
斯坦福互联网观察站的首席技术官 David Thiel 表示:「合法平台可以停止提供它的下载,特别是如果它们经常用于生成虐待图像并且没有阻止它们的保障措施。」
解决这个问题并不容易,可以追溯到许多生成性 AI 项目「实际上被匆忙地推向市场」并且由于该领域竞争激烈而广泛可用,Thiel 说。
「将整个互联网的抓取数据集用于训练模型本应该限于研究操作,如果有的话,而不是在没有更多严格关注的情况下开源,」Thiel 在接受采访时说。
影响 LAION 数据集开发的一个主要 LAION 用户是总部位于伦敦的初创公司 Stability AI,该公司制作了 Stable Diffusion 文本到图像模型。根据斯坦福报告,Stable Diffusion 的新版本已大大降低了生成有害内容的可能性,但去年推出的旧版本(Stability AI 表示它没有发布)仍然嵌入到其他应用程序和工具中,并且仍然是「生成明确图像的最受欢迎的模型」。
「我们无法撤回这一模型。这个模型已经在许多人的本地机器上被人们所拥有,」加拿大儿童保护中心信息技术主任 Lloyd Richardson 说。该中心运营着加拿大网络性剥削举报热线。
Stability AI 周三表示,它只托管过滤后的 Stable Diffusion 版本,并且「自从接管 Stable Diffusion 的独家开发以来,Stability AI 已采取积极措施来减少滥用风险」。
「这些过滤器阻止了不安全内容到达模型,」该公司在一份准备好的声明中说。「通过在内容到达模型之前将其移除,我们可以帮助防止模型生成不安全内容。」
LAION 本周表示,它开发了「严格的过滤器」来检测和移除非法内容,然后才发布其数据集,并仍在努力改进这些过滤器。斯坦福报告承认,LAION 的开发者试图过滤掉「未成年」的露骨内容,但如果他们早些时候与儿童安全专家协商,可能会做得更好。
许多文本到图像生成器都以某种方式从 LAION 数据库派生而来,尽管并不总是清楚是哪些生成器。Dall-E 和 ChatGPT 的开发商 OpenAI 表示,它没有使用 LAION,并对其模型进行了微调,以拒绝涉及未成年人的色情内容的请求。
Google 基于 LAION 数据集构建了其文本到图像 Imagen 模型,但在 2022 年决定不公开发布,原因是对数据库进行的审计「发现了大量不当内容,包括色情图像、种族主义辱骂和有害的社会刻板印象」。
LAION 的创始人是德国研究员和教师 Christoph Schuhmann,他今年早些时候表示,公开提供如此庞大的视觉数据库的部分原因是为了确保 AI 发展的未来不受少数强大公司的控制。
贾跃亭:将通过个人IP商业化赚钱 拯救FF以造车
在5月7日的视频中,贾跃亭坦诚地分享了他为拯救FF(法拉第未来)所做的决定。面对FF可能退市的传闻,他明确回应称:“虽然上周我们收到了纳斯达克的退市意见函,这确实意味着公司正面临极大的退市风险,但事实并非某些媒体所误解的那样,FF并未真正退市。”站长网2024-05-07 16:17:090000快手程一笑宣布:去年超过 2200 万创作者在平台获得收入
快手科技创始人兼CEO程一笑在快手光合创作者大会上宣布,过去一年有超过2200万创作者在快手平台上获得了收入。他指出,自2019年开始,连续三年每年都有超过2000万名创作者在快手平台上获得了收入。程一笑表示,快手将继续为创作者提供更好的创作条件和变现机会。站长网2023-08-10 11:25:020000微软发布小型语言模型Orca 2:仅7亿/13亿参数,媲美Llama-2-Chat-70B
**划重点:**1.📊*Orca2模型在零样本测试中,涵盖语言理解和常识推理等15个多样化基准测试中,与五到十倍更大的模型相匹敌或胜过。2.🌐微软开源了两个规模为7亿和13亿参数的Orca2模型,旨在促进对更小型模型的研究,这有助于有限资源的企业更经济地解决特定应用场景。站长网2023-11-21 16:26:300003首次解密Claude 3大脑!25岁Anthropic参谋长预言3年内自己将被AI淘汰
【新智元导读】Anthropic的25岁参谋长自曝因为深感AGI,未来三年自己的工作将被AI取代。她在最近的一篇文章中预言了未来即将要被淘汰的工种。难道说,Claude3模型已经初现AGI了吗?今天,整个AI社区被这篇文章刷屏了。来自AI明星初创公司Anthropic的参谋长(ChiefofStaff)在最新的文章中称:「我今年25岁,接下来的三年,将是我工作的最后几年」。站长网2024-06-03 10:30:220000清华大学人工智能研究院基础模型研究中心成立
站长之家(ChinaZ.com)7月4日消息:据清华大学官方消息,6月30日下午,清华大学人工智能研究院基础模型研究中心(以下简称“研究中心”)成立仪式在丙所会议室举行。清华大学表示,人工智能研究院在人工智能基础模型研究与应用方面具有很好的前期工作积累,已经建设了多个有影响力的基础模型并在产业化方面有了良好的开端。站长网2023-07-04 14:40:300000