首页站长资讯研究发现大型 AI 数据集包含虐待儿童图像：该数据集已用于构建流行的人工智能图像生成器，包括 Stable Diffusion

研究发现大型 AI 数据集包含虐待儿童图像：该数据集已用于构建流行的人工智能图像生成器，包括 Stable Diffusion

站长网2023-12-21 10:08:351阅

根据斯坦福互联网观察站周三发布的一项新研究，流行的人工智能（AI）图像生成器的基础数据库中隐藏着数千张儿童性虐待图片(CSAM)。作为对这一研究的回应，一些最大和最常用的图像数据库的运营商关闭了对它们的访问权限。

斯坦福大学的这个监督团队与加拿大儿童保护中心以及其他反虐待慈善机构合作，在巨大的 AI 数据库 LAION 中发现了超过 3200 张涉嫌儿童性虐待的图片，并向执法部门报告了原始照片链接。其中 1000 多张涉嫌图片被确认为儿童性虐待材料。

研究者们写道：「我们发现即使在 2023 年晚些时候，拥有 LAION-5B 数据集也意味着拥有数千张非法图片。」

对此，LAION 在斯坦福互联网观察站报告发布前夕做出了迅速反应，宣布暂时撤下其数据集。LAION（代表非营利性的大规模人工智能开放网络）在一份声明中表示，「我们对非法内容采取零容忍政策，出于谨慎考虑，我们已撤下 LAION 数据集，以确保在重新发布之前它们是安全的」。

尽管这些图片只占 LAION 约 58 亿张图片指数的一小部分，斯坦福团队表示，这可能影响 AI 工具生成有害输出的能力，并加剧对多次出现的实际受害者的先前虐待。

研究人员表示，这些图片还使 AI 系统更容易生成虚假儿童的逼真和明确的图像，以及将社交媒体上完全穿着衣服的真实青少年的照片转换为裸体照片，这让全世界的学校和执法部门感到震惊。直到最近，反虐待研究人员认为，一些未经检查的 AI 工具产生虐待儿童的图像的唯一方式是通过结合两类在线图片——成人色情和对孩子的无害照片。

斯坦福互联网观察站呼吁采取更为激进的措施。其中之一是要求所有基于 LAION-5B（包含超过 50 亿张图像文本对）构建训练集的人「删除它们或与中间商合作清理材料」。另一个措施是实际上让去年推出的 Stable Diffusion 的旧版本从互联网上最黑暗的角落消失。

斯坦福互联网观察站的首席技术官 David Thiel 表示：「合法平台可以停止提供它的下载，特别是如果它们经常用于生成虐待图像并且没有阻止它们的保障措施。」

解决这个问题并不容易，可以追溯到许多生成性 AI 项目「实际上被匆忙地推向市场」并且由于该领域竞争激烈而广泛可用，Thiel 说。

「将整个互联网的抓取数据集用于训练模型本应该限于研究操作，如果有的话，而不是在没有更多严格关注的情况下开源，」Thiel 在接受采访时说。

影响 LAION 数据集开发的一个主要 LAION 用户是总部位于伦敦的初创公司 Stability AI，该公司制作了 Stable Diffusion 文本到图像模型。根据斯坦福报告，Stable Diffusion 的新版本已大大降低了生成有害内容的可能性，但去年推出的旧版本（Stability AI 表示它没有发布）仍然嵌入到其他应用程序和工具中，并且仍然是「生成明确图像的最受欢迎的模型」。

「我们无法撤回这一模型。这个模型已经在许多人的本地机器上被人们所拥有，」加拿大儿童保护中心信息技术主任 Lloyd Richardson 说。该中心运营着加拿大网络性剥削举报热线。

Stability AI 周三表示，它只托管过滤后的 Stable Diffusion 版本，并且「自从接管 Stable Diffusion 的独家开发以来，Stability AI 已采取积极措施来减少滥用风险」。

「这些过滤器阻止了不安全内容到达模型，」该公司在一份准备好的声明中说。「通过在内容到达模型之前将其移除，我们可以帮助防止模型生成不安全内容。」

LAION 本周表示，它开发了「严格的过滤器」来检测和移除非法内容，然后才发布其数据集，并仍在努力改进这些过滤器。斯坦福报告承认，LAION 的开发者试图过滤掉「未成年」的露骨内容，但如果他们早些时候与儿童安全专家协商，可能会做得更好。

许多文本到图像生成器都以某种方式从 LAION 数据库派生而来，尽管并不总是清楚是哪些生成器。Dall-E 和 ChatGPT 的开发商 OpenAI 表示，它没有使用 LAION，并对其模型进行了微调，以拒绝涉及未成年人的色情内容的请求。

Google 基于 LAION 数据集构建了其文本到图像 Imagen 模型，但在 2022 年决定不公开发布，原因是对数据库进行的审计「发现了大量不当内容，包括色情图像、种族主义辱骂和有害的社会刻板印象」。

LAION 的创始人是德国研究员和教师 Christoph Schuhmann，他今年早些时候表示，公开提供如此庞大的视觉数据库的部分原因是为了确保 AI 发展的未来不受少数强大公司的控制。

研究发现大型AI 数据集包含虐待儿童图像该数据集已用于构建流行的人工智能图像生成器包括 StableDiffusion

0001

评论列表

共(0)条

相关推荐

天虹：智能时代购百数字化布局逻辑
在你看不到的地方，购物中心和百货（以下简称购百）行业的数字化需求已经发生了巨大的变化——AI技术正在极大地改变营销和服务模式。在今年的AI浪潮的席卷下，相比过往任何创业浪潮，当进入AI大潮的时候企业主动在付费。这是见实在做完一场AI需求与付费意愿大调研后得到的一个关键结论。这次大潮下，多数企业认同与其被动等待AI浪潮的席卷，不如主动出击拥抱新的革命。
站长网站长资讯2023-10-09 22:54:04
0000
站长资讯
Midjourney禁止Stability AI员工使用服务涉嫌数据抓取引发争议
Midjourney在周三宣布无限期禁止竞争对手StabilityAI的所有员工使用其图像合成服务，原因是检测到疑似Stability员工试图批量抓取提示和图像对的活动。这一决定是由Midjourney的倡导者NickSt.Pierre通过官方Discord频道发布的推文引发的。图源备注：图片由AI生成，图片授权服务商Midjourney
站长网2024-03-12 11:46:03
0001
站长资讯
FTC 关注生成式 AI 的竞争担忧着重强调关键投入问题
美国联邦贸易委员会（FTC）技术局和技术办公室在一篇博文中表示，生成式人工智能，尤其是ChatGPT，引发了竞争担忧，并成为该机构的关注重点。这两个办公室的工作人员在博文中指出：「生成式人工智能依赖于一系列必要的投入。如果一家公司或少数几家公司控制了其中一个或几个关键投入，它们可能会利用其控制权来削弱或扭曲生成式人工智能市场上的竞争。」
站长网2023-06-30 22:52:22
0002
站长资讯
21岁哈佛辍学生打造挂在脖子上的AI朋友，一夜爆火！
最近，在AI界，大家似乎都被大模型的光环迷得不可自拔，对吧?但你有没有注意到，其实我们正处在一个AI应用相对贫乏的时期。就像建房子一样，地基当然重要，它确保了房子的稳定性。但当大家讨论完地基后，总得有人动手盖房子啊!即使那房子看起来有点简陋。别担心，高楼大厦不一定要一开始就有，简单的起步也很关键。就像朋友（Friend）这类AI产品，就是那个看起来“简单而又实用”的开端。
站长网2024-08-06 14:29:22
0000
站长资讯
为什么普通人「出圈」，都在小红书？
解码小红书推荐系统:为什么在这里普通人更容易被看见?出差期间，我在酒店百无聊赖地打开了小红书。一篇看似平淡无奇的笔记吸引了我的注意——一位ID叫「倚着彩虹看夕阳」的用户发帖，说自己在酒店的床上看西游记时，感觉到前所未有的放松。从标题到配图，这篇发布于去年5月的笔记没有任何明显的爆点，但显然在小红书上引发了广泛的共鸣，收到了大量的点赞、收藏和评论。我也被吸引，陷入了#走不出的评论区。
站长网2024-01-16 17:21:52
0000