全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容
根据人工智能内容检测器 Originality.AI 的最新数据,全球前 1000 个网站中有近 20% 阻止爬虫机器人收集网络数据用于 AI 服务。
在缺乏明确法律或监管规定管理 AI 使用版权材料的情况下,大小不一的网站都自行采取措施。
OpenAI 于 8 月初推出了其 GPTBot 爬虫,并宣布所收集到的数据「可能被用于改进未来模型」,承诺排除付费内容并指导网站如何禁止该爬虫。随后,包括《纽约时报》、路透社和 CNN 等知名新闻网站开始阻止 GPTBot,并且许多其他网站也效仿。
根据 Originality.AI 的数据,在全球前 1000 个最受欢迎的网站中,阻止 OpenAI ChatGPT bot 的数量从 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封锁 ChatGPT bot 的最大网站是亚马逊、Quora 和 Indeed。数据显示,更大型的网站更有可能已经封锁了 AI 爬虫机器人。
Common Crawl Bot 是另一个定期收集某些 AI 服务使用的 Web 数据的爬虫程序,在全球前 1000 个顶级网站上被屏蔽率为 6.77%。
任何您可以从 Web 浏览器访问的页面都可以被爬虫程序「抓取」,它们就像浏览器一样运行,但将材料存储在数据库中而不是向用户显示。
这就是搜索引擎如 Google 收集信息的方式。网站所有者一直有能力发布指令,告诉这些爬虫程序离开他们的网站,但合作完全是自愿性质,并且恶意操作者可以忽略这些指令。
谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围,但许多出版商和知识产权持有人长期以来一直反对此做法,并且该公司因此面临了多起诉讼。大型语言模型和生成式 AI 的兴起使得这个问题重新受到关注,因为 AI 公司派出自己的爬虫程序收集数据以培训其模型并提供聊天机器人所需素材。
自从 Google 和其他搜索网站将用户引导至其支持广告的网站后,一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而,在 AI 时代中,出版商更积极地阻止爬虫程序进入其网站,因为暂时没有将其数据交给 AI 公司的好处。许多媒体公司目前正在与 AI 公司就以费用向其授权数据进行谈判,但这些谈判还处于早期阶段。
在过去 20 年中被 Google 拿走了一些东西的媒体机构对 OpenAI 等快速商业化的 AI 服务持敌意和「我们不会再上当」的态度。据 The Information 报道,OpenAI 预计在未来一年内将带来超过 10 亿美元的收入。
新闻媒体公司正在努力找到平衡点,在接受和抵制人工智能之间挣扎。一方面,该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。
另一方面,在人们对新闻媒体公司的信任度处于历史低点之际,将人工智能引入新闻编辑室的工作流程,会带来具有挑战性的道德问题。
而如果太多的网络阻碍人工智能爬虫,它们的所有者可能会发现更难改进和更新他们的人工智能产品——而且好的数据也变得越来越难找到。
Originality.AI 的发现显示,前 1000 个网站中 GPTBot 的屏蔽率每周增加约 5%。
智源研究院推出1bit自然语言理解预训练模型BiPFT
智源研究院提出了首个用于自然语言理解任务的1bit轻量化预训练模型BiPFT。与传统的FP32模型相比,BiPFT模型在推理阶段显著减少了操作数量和内存使用。该模型在GLUE标准测试集上的平均性能超过了15.4%。站长网2024-01-11 09:50:030000QQ音乐年度报告上热搜 快来看看你最爱的歌手是谁
今日,QQ音乐向用户发布了“2023年度报告邀请函”,需要的用户可以在QQ音乐APP搜索“听歌报告”进行查收。邀请函展示了用户较常听的歌手,同时“2023年度报告”也将在本月底发布。数据显示,腾讯音乐今年第三季度实现总收入65.7亿元,同比下滑10.8%;非国际财务报告准则净利润15亿元,同比增长6.5%。站长网2023-12-01 12:12:250000把“全世界”搬进直播间,我在淘宝做跨境电商直播
全球达人们正涌入淘宝直播。刚刚过去的这届618大促期间,全网百万粉丝的探店达人“锁哥在日本”把日语小课堂搬到了淘宝直播,边教日语边带货;日本女团成员“小小葵呀”用宅舞开启直播首秀;全网粉丝百万的“泰国阿芳夫妇”入淘直播首秀则吸引了近百万粉丝围观。在这个疫情放开后的首个大促,全球达人们通过直播架起进口消费的重要桥梁,让消费者积压了三年的跨境购物需求得以释放。站长网2023-07-05 19:41:390002韩国将把AI引入中小学课程 先应用于数学、英语和IT
据报导,韩国教育部正在推动使用人工智能技术对学生进行教学。其计划主要包括使用AI应用程序回答学生的提问和电子课本。此外,AI还将被用于分析学生的优势和不足,并提供量身定制的教学策略。站长网2023-06-13 14:58:480000AI驱动增长的时代,广告投放有哪些新玩法?
营销竞争日益激烈,越来越多的广告主都开始用AI“卷”效率——在制作环节,AI能够在准确了解目标受众的同时,让品牌创意迅速落地。在投放环节,AI也能帮助品牌实现自动化投放和个性化推荐,提高广告的点击率和转化率,整个过程主打一个快、狠、准。站长网2024-04-30 11:04:070000