谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议
大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌DeepMind。
“原告”直接怒喷:他们就是把我们的技术报告洗了一遍!
具体是这么个事儿:
谷歌DeepMind一篇中了顶流新生代会议CoLM2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

两篇论文探讨的都是一种规范模型文本生成结构的方法。
抓马的是,谷歌DeepMind这篇论文中确实明晃晃写着引用了“原告”的论文。

然鹅,即便是标明了引用,“原告”的两位论文作者Brandon T. Willard(布兰登)和R´emi Louf(雷米)还是坚称谷歌抄袭,并认为:
谷歌对两者差异性的表述“简直荒谬”。

而不少网友看过论文后也缓缓打出一个问号:CoLM是怎么审的稿?

唯一区别是换了概念?

赶紧瞅一眼论文对比……
两篇论文的比较
先浅看一眼两篇论文的摘要对比。
谷歌DeepMind的论文说的是,tokenization给约束语言模型输出带来了麻烦,他们引入自动机理论来解决这些问题,核心是避免在每个解码步骤遍历所有逻辑值(logits)。
该方法只需要访问每个token的解码逻辑值,计算与语言模型的大小无关,高效且易用于几乎所有语言模型架构。
而“原告”的说法大致是:
提出了一个高效框架,通过在语言模型的词汇表上构建索引,来大幅提升约束文本生成的效率。简单来说,就是通过索引避免对全部逻辑值的遍历。
同样“不依赖于具体模型”。
方向上确实大差不差,我们还是接着来看看更多详细内容。
我们用谷歌Gemini1.5Pro分别总结了两篇论文的主要内容,并接着让Gemini来比较两者的异同。
对于“被告”谷歌这篇论文,Gemini总结其方法是将detokenization重新定义为有限状态转换器(FST)操作。

将此FST与表示目标形式语言的自动机组合,这种自动机可以用正则表达式或语法来表示。
通过以上结合,生成一个基于token的自动机,用于在解码过程中约束语言模型,确保其输出的文本符合预设的形式语言规范。
此外,谷歌论文中还进行了一系列正则表达式扩展,这些扩展通过使用特别命名的捕获组来编写,显著提升了系统处理文本时的效率和表达能力。
而对于“原告”论文,Gemini总结其方法的核心是将文本生成问题重新定义为有限状态机(FSM)之间的转换。
“原告”的具体方法是:
利用正则表达式或上下文无关文法构建FSM,并将其用于指导文本生成过程。
通过构建词汇表索引,高效地确定每个步骤中的有效词,避免遍历整个词汇表。

Gemini列出了两篇论文的共同点。

至于两者的区别,有点像前头那位网友说的,简单总结就是:谷歌将词汇表定义为了一个FST。
前面也说到了,谷歌在“Related work”中将原告论文列为“最相关”的一项工作:
最相关的研究是Outlines(Willard&Louf,2023),该研究同样采用有限状态自动机(FSA)和下推自动机(PDA)作为约束手段——我们的方法是在2023年初独立开发的。
谷歌认为两者的差异在于,Outlines的方法基于一种特制的“索引”操作,需要手动扩展到新的应用场景。相比之下,谷歌使用自动机理论彻底重新定义了整个过程,使得应用FSA和泛化到PDA变得更加容易。
另一个区别是,谷歌定义了扩展以支持通配符匹配,并提高了可用性。

谷歌紧接着在介绍下面的两项相关工作中,也都提到了Outlines。
一项是Yin等人(2024年)通过增加“压缩”文本段到预填充的功能,扩展了Outlines。
另一项是Ugare等人(2024年)近期提出的一个系统,名为SynCode。它也利用FSA,但采用LALR和LR解析器而非PDA处理语法。
与Outlines类似,该方法依赖于定制算法。
但吃瓜群众们显然不是很买账:
CoLM的评审们应该注意。我不认为这看上去是各自独立的“同期工作”。

网友:这事儿不罕见…
这件事一发酵,不少网友都怒了,抄袭可耻,更何况“科技巨头剽窃小团队的工作成果不是第一次了”。
顺便一提,布兰登和雷米发布原告论文的时候都在给Normal Computing远程工作,这家AI Infra公司成立于2022年。
哦对了,Normal Computing的创始团队有一部分就来自Google Brain……
另外,布兰登和雷米现在合伙出来创业了,新公司名叫.txt,官网信息显示,其目标是提供快速可靠的信息提取模型。并且官网挂出的GitHub主页,就是Outlines仓库。
说回到网友这边,更让大家伙儿生气的是,“这种情况已经变得普遍”。
一位来自荷兰代尔夫特理工大学的博士后分享了自己的遭遇:
去年10月我们完成了一项工作,最近有篇已被接收的论文采用了相同的思路和概念,但甚至没有引用我们的论文。

还有一位美国东北大学的老哥更惨,这种情况他遭遇过两次,下手的还都是同一个组。并且对面那位第一作者还给他的GitHub加过星标……

不过,也有网友表达了不同的意见:
如果说发个博客文章或未经评估的预印本论文就算占坑了,那人人都会占坑,不是吗?

对此,雷米怒怼:
好家伙,发布预印本论文并开源代码 = 占坑;
写篇数学论文,甚至不需要任何伪代码 = 好工作???

布兰登老哥也表示yue了:
开源代码并撰写相关论文是“占坑”,复制别人的工作却说“我更早有了这个想法”且投稿了会议反而不是啦?真恶心。

瓜就先吃到这里,对此你有什么想法?不妨在评论区继续讨论~
两篇论文戳这里:
谷歌DeepMind论文:https://arxiv.org/abs/2407.08103v1
原告论文:https://arxiv.org/abs/2307.09702
参考链接:
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46
小鹏汽车阶段性组织调整已完成
今日,小鹏汽车宣布,组织调整已完成。小鹏汽车在2022年度报告中显示,王凤英出任总裁,其他核心高管继续担任原有职位。小鹏汽车表示,“阶段性的组织架构调整已完成,在更精简、更高效运作的组织以及更有竞争力的人才体系下,我们对市场份额的增长和销量的恢复充满信心。”站长网2023-04-12 18:17:380000谷歌正在为新闻出版商开发一种人工智能工具
据CNN报道,谷歌正在开发一种人工智能工具,用于为新闻出版商生成文章正文和标题,该公司表示,这突显了这项技术可能很快改变新闻业的方式。这家科技巨头在一份声明中表示,它希望与新闻机构合作,在新闻编辑室使用这种人工智能工具。“我们的目标是让记者有选择地使用这些新兴技术,以增强他们的工作和效率,”谷歌的一位发言人说,“就像我们为Gmail和GoogleDocs的用户提供辅助工具一样。”站长网2023-07-21 12:09:260000英伟达市值一夜大涨2.36万亿 股价涨近13%
在经历了前一个交易日股价下跌7%之后,NVIDIA的股价在周三的交易中意外地大幅上涨了近13%,使得公司的市值在一天之内惊人地增加了3290亿美元,约合2.4万亿元人民币,这一数字刷新了个股单日市值增长的最高纪录。在周二发布的财报中,微软的CEO萨蒂亚·纳德拉和首席财务官艾米·胡德宣布,计划在明年加大对基于NVIDIA技术的基础设施的投资,这一消息极大地提振了市场对NVIDIA的信心。站长网2024-08-01 10:22:470000OpenAI回应“ChatGPT发疯”问题:token预测是根源
**划重点:**1.🚀ChatGPT突然失控,用户纷纷曝光史上最诡异回复。2.🐞OpenAI官方解释问题根源为「token预测」,已紧急修复。3.🧠分析指出GPT-4故障原因可能涉及分词器问题,引发社交媒体热议。站长网2024-02-23 16:40:090001研究:人工智能缩短中风治疗时间,死亡率降低60%
文章概要:-人工智能软件显著提高中风患者大血管梗塞的检测速度,减少治疗时间,可能改善治疗结果。-在四家综合性中风中心进行的临床试验中,该自动化系统与60%的死亡率下降相关。-与未使用该系统的对照组相比,门诊到体内血管成形术时间缩短11分钟。站长网2023-09-22 11:50:180000