谷歌和OpenAI呼吁修改版权法以获取AI训练数据
本文概要:
1. Google 和 OpenAI 利用他们的机器人(GoogleBot 和 GPTBot)从互联网上收集数据,但最近的版权法对他们的数据抓取工作提出了障碍。
2. AI 模型需要人类生成的内容来提高,但公司应该支付还是从互联网获取这些内容是一个问题。
3. OpenAI 已经开始使用由 ChatGPT 创建的数据集来训练 GPT-4,但仅依赖这些数据可能导致模型崩溃。
Google 和 OpenAI 正面临着版权法在其 AI 训练数据收集方面的限制。随着 ChatGPT 和 Google 的 Bard 等生成式 AI 系统的普及,对更多数据的需求不断增长。
这些AI系统需要大量的文本、图像和视频进行训练。OpenAI 强调 GPT-4是通过经过批准和公开可用的数据源进行学习的。然而,由于对互联网抓取数据的担忧,OpenAI 和 Google 在数据获取方面面临公众的反对。

提高 AI 模型的质量需要人类生成的内容,而问题在于公司是否应该为这些内容付费或者从互联网上获取。未来,人类生成的内容可能以高价销售。
OpenAI 最近开始使用由 ChatGPT 创建的数据集来训练 GPT-4,但仅仅依赖这些数据可能导致模型崩溃。这种情况发生在模型从其他模型生成的数据中学习,导致失去准确的数据。此外,未经作者同意或未给予作者名字的使用作品也成为了讨论的话题。上个月,数千名作者签署请愿书,要求 AI 公司停止未经许可使用他们的作品。
目前,OpenAI 和 Google 都把决定是否允许生成式 AI 挖掘他们的内容的责任放在出版商身上。Google 建议创建一个类似于 robots.txt 系统的社区开发标准,允许出版商选择拒绝抓取他们的作品被。
OpenAI 已经采取了初步措施,通过将其添加到网站的 robot.txt 文件中,让网站所有者选择不让 GPTBot 访问。OpenAI 还与美联社合作,以获取实时数据进行未来的模型训练,并寻求避免法律纠纷并补偿创作者。
《玫瑰的故事》庄国栋成“案例”,相亲界“福尔摩斯”月涨粉50万
近期出圈的电视剧《玫瑰的故事》里,有这样一个片段,黄亦玫问庄国栋,怎么没用交友软件谈女朋友?此时的庄国栋,戈蘭集团亚太区总裁,外企高管、单身、爱运动、无不良嗜好,妥妥的黄金单身汉。就是因为条件太优秀了,所以总被人举报是“杀猪盘”。站长网2024-07-03 21:53:500000高通宣布骁龙X Elite首发合作厂商 小米荣耀等在列
站长之家(ChinaZ.com)10月26日消息:10月26日消息,高通昨天召开的骁龙峰会上公布了首批将搭载骁龙XElite处理器的PC制造商名单,其中包括小米、荣耀、联想等9家知名品牌。高通产品管理高级总监NitinKumar透露,首批合作厂商将在2024年年中起陆续发布搭载骁龙XElite处理器的产品,包括笔记本电脑和二合一产品等。站长网2023-10-26 11:56:580000马斯克梭哈xAI,叫板OpenAI
历时四个月,全球最大超级计算中心“Supercluster”正式开始运转。埃隆·马斯克在社交平台公开宣布,美国时间7月22日凌晨4:20,由xAI、X和英伟达等合力打造的“Supercluster”已开始投入训练。它由10万块H100组成,是目前世界上最强训练集群。站长网2024-07-27 11:36:220000微软推出机器学习库GPT-RAG
要点:GPT-RAG解决了将大型语言模型(LLMs)集成到企业环境中的挑战,通过使用检索增强生成(RAG)模式提供了企业级参考架构。GPT-RAG具有强大的安全框架和零信任原则,通过Azure的网络和安全功能确保对敏感数据的谨慎处理。该解决方案具备自动扩展功能,利用Azure服务适应波动工作负载,同时通过综合的可观测性系统提供系统性能的监测和分析,以支持连续改进。站长网2023-12-19 17:10:550001亚马逊为 Alexa 构建更大的语言模型
亚马逊正在构建一个更大的语言模型来为其Alexa数字助手提供支持,这是其投资生成人式工智能以提升其所有业务的客户体验计划的一部分。在公司2023年第一季度的财报电话会议上,亚马逊CEOJassy表示,将“打造世界上最好的个人助理”。站长网2023-05-04 14:59:380000