擅自收集图片数据!AI抓取工具img2dataset困扰着图片网站
img2dataset是一款自动在互联网上搜索图像数据并用训练于人工智能图像生成器的免费工具,不过这款工具引发了网站所有者的担忧。
网站所有者认为这款工具将擅自获取他们的图像和数据,而不是经过许可,希望img2dataset停止抓取行为的做法。对此,这款工具的创建者罗曼·博蒙特(Romain Beaumont)在其GitHub表示,他们(网站拥有者)正在与人工智能不可避免的崛起作斗争,这是“可悲的”。“令人难过的是,你们中的一些人不了解人工智能和开放人工智能的潜力,因此决定与之斗争。”“在未来的几年里,你将有很多机会从人工智能中受益。我希望你尽早看到这一点。作为创作者,你有更多的机会从中受益。”
Img2dataset是博蒙特在GitHub上共享的免费工具,允许用户自动下载和调整URL列表,从而获得图像数据集,这种数据集训练图像生成人工智能模型,如OpenAI的DALL-E,开源的Stable Diffusion和谷歌的Imagen。
博蒙特还是LAION-5B的开源贡献者,LAION-5B是世界上最大的图像数据集之一,包含超过50亿张图像,供给Imagen和Stable Diffusion使用。
Img2dataset会尝试从任何网站抓取图像,除非网站所有者添加https头,如“X-Robots-Tag: noai”和“X-Robots-Tag: noindex”。这意味着网站所有者可以选择”阻止“img2dataset,不过他们中的许多人可能甚至不知道img2dataset的存在。
博蒙特为img2dataset辩护,将该工具与Google索引网站的方式进行比较,称谷歌索引方式对任何想搜索互联网的人都有好处。
对此有专家认为,网站所有者是直接受益于搜索引擎,因为它们为网站带来了有用的流量。谷歌的机器人是有原则的,不会攻击网站,大多数机器人都尊重robots.txt指令。而Img2dataset则没有,该工具似乎是故意设忽视网站所有者的指令。坦率地说,它并没有给网站所有者带来任何直接好处。
毫无疑问,Img2dataset这款AI工具引起了网站所有者的担忧,他们担心他们的敏感数据和隐私正在被侵犯,如果AI技术的发展不受控制,很容易操纵大量的数据。
img2dataset项目网址:https://github.com/rom1504/img2dataset
周鸿祎:不会用GPT的人会被淘汰 360AI商店上线
站长之家(ChinaZ.com)5月15日消息:在近日的央视《对话》播出的《寻找AI的边界》节目中,360集团创始人周鸿祎表示,这次人工智能是真的,不是假的,GPT-4.0已经是地球上最聪明的“人”了。所有高科技公司都在打造自己的大模型,至少是千模大战,不出意外的话,很快会发展到万模大战。站长网2023-05-15 08:18:450000理想汽车:4月第一周周销量达4177辆 远超其他新势力
据理想汽车官方公布数据,2023年4月第一周(4.03-4.09),理想汽车周销量达到4177辆,远超其他新势力品牌,再次蝉联中国市场新势力品牌周销量冠军。同时,理想汽车也继续保持中国市场豪华品牌销量前五,依旧是榜单中排名最高的中国品牌,也超越了BBA以外的其他传统豪华品牌。站长网2023-04-13 08:54:170000当代打工人,被迫患上“文字讨好症”
“文字讨好症”,指为了展示自己的友善,缓和语气,在一句话末尾加上各类语气助词和标点符号,时常发生在线上对话场景,例如公司内部通讯工具和微信对话框里。站长网2023-05-30 11:29:570000一场 AI 引发的开源革命迫在眉睫?Hugging Face 更改文本推理软件许可证,不再“开源”
Text-Generation-Inference(又称TGI)是HuggingFace今年早些时候启动的一个项目,作为支持HuggingFaceInferenceAPI和后来的HuggingChat上的LLM推理的内部工具,旨在支持大型语言模型的优化推理。自推出后,该项目迅速流行,并被Open-Assistant和nat.dev等其他开源项目采用。站长网2023-08-01 09:07:1800042023 年第一季度中国平板电脑市场出货量约 669 万台 同比下降 1.1%
站长之家(ChinaZ.com)5月16日消息:据国际数据公司(IDC)最新平板电脑季度跟踪报告显示,2023年第一季度,中国平板电脑市场出货量约669万台,同比下降约1.1%,其中消费市场同比与去年同期持平;商用市场同比下降12.7%。站长网2023-05-16 14:00:140000