擅自收集图片数据!AI抓取工具img2dataset困扰着图片网站
img2dataset是一款自动在互联网上搜索图像数据并用训练于人工智能图像生成器的免费工具,不过这款工具引发了网站所有者的担忧。
网站所有者认为这款工具将擅自获取他们的图像和数据,而不是经过许可,希望img2dataset停止抓取行为的做法。对此,这款工具的创建者罗曼·博蒙特(Romain Beaumont)在其GitHub表示,他们(网站拥有者)正在与人工智能不可避免的崛起作斗争,这是“可悲的”。“令人难过的是,你们中的一些人不了解人工智能和开放人工智能的潜力,因此决定与之斗争。”“在未来的几年里,你将有很多机会从人工智能中受益。我希望你尽早看到这一点。作为创作者,你有更多的机会从中受益。”
Img2dataset是博蒙特在GitHub上共享的免费工具,允许用户自动下载和调整URL列表,从而获得图像数据集,这种数据集训练图像生成人工智能模型,如OpenAI的DALL-E,开源的Stable Diffusion和谷歌的Imagen。
博蒙特还是LAION-5B的开源贡献者,LAION-5B是世界上最大的图像数据集之一,包含超过50亿张图像,供给Imagen和Stable Diffusion使用。
Img2dataset会尝试从任何网站抓取图像,除非网站所有者添加https头,如“X-Robots-Tag: noai”和“X-Robots-Tag: noindex”。这意味着网站所有者可以选择”阻止“img2dataset,不过他们中的许多人可能甚至不知道img2dataset的存在。
博蒙特为img2dataset辩护,将该工具与Google索引网站的方式进行比较,称谷歌索引方式对任何想搜索互联网的人都有好处。
对此有专家认为,网站所有者是直接受益于搜索引擎,因为它们为网站带来了有用的流量。谷歌的机器人是有原则的,不会攻击网站,大多数机器人都尊重robots.txt指令。而Img2dataset则没有,该工具似乎是故意设忽视网站所有者的指令。坦率地说,它并没有给网站所有者带来任何直接好处。
毫无疑问,Img2dataset这款AI工具引起了网站所有者的担忧,他们担心他们的敏感数据和隐私正在被侵犯,如果AI技术的发展不受控制,很容易操纵大量的数据。
img2dataset项目网址:https://github.com/rom1504/img2dataset
看完小米汽车发布会,年轻人都要说句“我不配”
蓝色射灯划破黑暗,在激光写就的标志“MI”之下,两台小米SU7终于露出了真面目,雷军口中的“米字”水滴大灯在无比耀眼,伴随着车身的旋转俯瞰着整个会场。小米汽车,终于从官方途径正式亮相了。这已经是小米官宣造车的第1003天,过去的三年里,小米宣称投入超过100亿,吸引了全球各大车企的顶尖造车人才,在艰苦卓绝的技术攻坚后,终于将这场名为“跨越”的技术发布会带到我们眼前。0000“万能”的石墨烯:可能改变世界的11种应用
石墨烯可能是世界上最有用的材料之一。虽然,它只有一个碳原子那么厚,但它比钢强很多倍,而且非常灵活。自从2004年研究人员首次将其分离出来,涉及石墨烯的专利清单每年都呈指数级增长。估计用不了多久,这种超级材料就会引发一场可能真正改变世界的技术革命。我们汇总了一些在不久的将来,值得期待的几项意义深远的石墨烯发明。站长网2023-05-23 17:47:080000互联网医院医联推出AI医生medGPT 计划5月份发布
互联网医院医联Medlinker于今日正式发布国内首款大模型驱动的AI医生——medGPT,该产品目前已进入内部测试阶段,并计划于今年5月份正式发布。医联medGPT目前已经拥有近3000种疾病的首诊能力,覆盖80%以上的成年人疾病和90%以上的0-12岁儿科疾病。站长网2023-05-12 20:31:200000Meta发布机器学习模型Voicebox:可从文本生成语音 精通六门语言
日前,Meta平台的人工智能研究部门推出了名为Voicebox的机器学习模型,可以将文本转换为语音。与其他文本转语音模型不同的是,Voicebox能够执行许多未经过训练的任务,包括编辑、去除噪音和样式转换。站长网2023-06-20 17:10:320001报道称美国军方投资数亿美元计划发展智能无人机及AI系统
文章概要:1.美国国防部计划扩大无人机和自主系统机队,加入人工智能技术。2.国防部副部长凯瑟琳·希克斯提出发展“小型、智能、廉价”人工智能系统,以抵御威胁。3.计划包括加强监视设备和网络,尚不清楚具体应用的人工智能技术。美国国防部计划投资数百万美元,扩大其无人机和自主系统机队,并考虑引入更多的人工智能(AI)技术,以增强其军事能力。站长网2023-09-07 14:19:240000