谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

站长网2024-07-15 17:56:100阅

大模型圈再曝抄袭大瓜，这回，“被告”还是大名鼎鼎的谷歌DeepMind。

“原告”直接怒喷:他们就是把我们的技术报告洗了一遍!

具体是这么个事儿:

谷歌DeepMind一篇中了顶流新生代会议CoLM2024的论文被挂了，瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

两篇论文探讨的都是一种规范模型文本生成结构的方法。

抓马的是，谷歌DeepMind这篇论文中确实明晃晃写着引用了“原告”的论文。

然鹅，即便是标明了引用，“原告”的两位论文作者Brandon T. Willard（布兰登）和R´emi Louf(雷米)还是坚称谷歌抄袭，并认为:

谷歌对两者差异性的表述“简直荒谬”。

而不少网友看过论文后也缓缓打出一个问号:CoLM是怎么审的稿?

唯一区别是换了概念?

赶紧瞅一眼论文对比……

两篇论文的比较

先浅看一眼两篇论文的摘要对比。

谷歌DeepMind的论文说的是，tokenization给约束语言模型输出带来了麻烦，他们引入自动机理论来解决这些问题，核心是避免在每个解码步骤遍历所有逻辑值（logits）。

该方法只需要访问每个token的解码逻辑值，计算与语言模型的大小无关，高效且易用于几乎所有语言模型架构。

而“原告”的说法大致是:

提出了一个高效框架，通过在语言模型的词汇表上构建索引，来大幅提升约束文本生成的效率。简单来说，就是通过索引避免对全部逻辑值的遍历。

同样“不依赖于具体模型”。

方向上确实大差不差，我们还是接着来看看更多详细内容。

我们用谷歌Gemini1.5Pro分别总结了两篇论文的主要内容，并接着让Gemini来比较两者的异同。

对于“被告”谷歌这篇论文，Gemini总结其方法是将detokenization重新定义为有限状态转换器（FST）操作。

将此FST与表示目标形式语言的自动机组合，这种自动机可以用正则表达式或语法来表示。

通过以上结合，生成一个基于token的自动机，用于在解码过程中约束语言模型，确保其输出的文本符合预设的形式语言规范。

此外，谷歌论文中还进行了一系列正则表达式扩展，这些扩展通过使用特别命名的捕获组来编写，显著提升了系统处理文本时的效率和表达能力。

而对于“原告”论文，Gemini总结其方法的核心是将文本生成问题重新定义为有限状态机（FSM）之间的转换。

“原告”的具体方法是:

利用正则表达式或上下文无关文法构建FSM，并将其用于指导文本生成过程。

通过构建词汇表索引，高效地确定每个步骤中的有效词，避免遍历整个词汇表。

Gemini列出了两篇论文的共同点。

至于两者的区别，有点像前头那位网友说的，简单总结就是:谷歌将词汇表定义为了一个FST。

前面也说到了，谷歌在“Related work”中将原告论文列为“最相关”的一项工作:

最相关的研究是Outlines（Willard&Louf，2023），该研究同样采用有限状态自动机(FSA)和下推自动机(PDA)作为约束手段——我们的方法是在2023年初独立开发的。

谷歌认为两者的差异在于，Outlines的方法基于一种特制的“索引”操作，需要手动扩展到新的应用场景。相比之下，谷歌使用自动机理论彻底重新定义了整个过程，使得应用FSA和泛化到PDA变得更加容易。

另一个区别是，谷歌定义了扩展以支持通配符匹配，并提高了可用性。

谷歌紧接着在介绍下面的两项相关工作中，也都提到了Outlines。

一项是Yin等人（2024年）通过增加“压缩”文本段到预填充的功能，扩展了Outlines。

另一项是Ugare等人（2024年）近期提出的一个系统，名为SynCode。它也利用FSA，但采用LALR和LR解析器而非PDA处理语法。

与Outlines类似，该方法依赖于定制算法。

但吃瓜群众们显然不是很买账:

CoLM的评审们应该注意。我不认为这看上去是各自独立的“同期工作”。

网友:这事儿不罕见…

这件事一发酵，不少网友都怒了，抄袭可耻，更何况“科技巨头剽窃小团队的工作成果不是第一次了”。

顺便一提，布兰登和雷米发布原告论文的时候都在给Normal Computing远程工作，这家AI Infra公司成立于2022年。

哦对了，Normal Computing的创始团队有一部分就来自Google Brain……

另外，布兰登和雷米现在合伙出来创业了，新公司名叫.txt，官网信息显示，其目标是提供快速可靠的信息提取模型。并且官网挂出的GitHub主页，就是Outlines仓库。

说回到网友这边，更让大家伙儿生气的是，“这种情况已经变得普遍”。

一位来自荷兰代尔夫特理工大学的博士后分享了自己的遭遇:

去年10月我们完成了一项工作，最近有篇已被接收的论文采用了相同的思路和概念，但甚至没有引用我们的论文。

还有一位美国东北大学的老哥更惨，这种情况他遭遇过两次，下手的还都是同一个组。并且对面那位第一作者还给他的GitHub加过星标……

不过，也有网友表达了不同的意见:

如果说发个博客文章或未经评估的预印本论文就算占坑了，那人人都会占坑，不是吗?

对此，雷米怒怼:

好家伙，发布预印本论文并开源代码 = 占坑;

写篇数学论文，甚至不需要任何伪代码 = 好工作???

布兰登老哥也表示yue了:

开源代码并撰写相关论文是“占坑”，复制别人的工作却说“我更早有了这个想法”且投稿了会议反而不是啦?真恶心。

瓜就先吃到这里，对此你有什么想法?不妨在评论区继续讨论~

两篇论文戳这里:

谷歌DeepMind论文:https://arxiv.org/abs/2407.08103v1

原告论文:https://arxiv.org/abs/2307.09702

参考链接:

[1]https://x.com/remilouf/status/1812164616362832287?s=46

[2]https://x.com/karan4d/status/1812172329268699467?s=46

[3]https://x.com/brandontwillard/status/1812163165767053772?s=46

谷歌DeepMind被曝抄袭开源成果论文还中了顶流会议

0000

评论列表

共(0)条

相关推荐

站长资讯
SettleMint 的 AI 助手旨在帮助 web3 开发人员编写更好的智能合约
SettleMint是一个面向企业的低代码区块链编程工具，最近在其平台上添加了AI助手。该AI助手旨在帮助开发人员创建智能合约、集成数据并增强质量保证（QA）测试。人工智能可以帮助Draft智能合约，并解释每一行代码的作用。尽管数字货币价格暴跌，但这家成立七年的比利时公司的用户仍在稳步增长，因为越来越多的企业认识到区块链技术的好处，但缺乏将其想法变为现实的技术技能。
站长网2023-08-03 14:47:53
0000
站长资讯
AI几小时设计芯片超越人类！谷歌AlphaChip登Nature，已设计出三代旗舰TPU
【新智元导读】谷歌的AlphaChip，几小时内就能设计出芯片布局，直接碾压人类专家!这种超人芯片布局，已经应用在TPU、CPU在内的全球硬件中。人类设计芯片的方式，已被AI彻底改变。能设计芯片的AI黑科技来了!就在刚刚，谷歌DeepMind推出名为AlphaChip的AI系统。无论是设计最先进的用于构建AI模型的TPU，还是数据中心的CPU，它在相关的众多领域，都产生了广泛影响。
站长网2024-09-30 20:58:44
0000
站长资讯
内容社区变现：小红书的无限战争
4月25日晚，承载了许多70、80后青春的天涯社区疑似关停。一代传奇终成“时代的眼泪”，给所有的内容社区平台敲响了警钟。与天涯这类成长于PC时代的BBS论坛不同，小红书诞生以前便有微博在前开路，开局便抓住了移动互联网时代的黄金10年。乘着时代的车轮，小红书从早期的海淘分享社区，逐步转变为生活方式分享平台，从美妆不断延展至美食、旅行、萌宠等社交生活的方方面面。
站长网2023-05-24 14:12:40
0000
站长资讯
“李维刚的日常”周涨粉榜第一位，他是怎么突破低谷的？
有人说，健身和读书，是全世界成本最低的升值方式，所以要么读书，要么健身，灵魂和身体，必须有一个在路上。我们以为的健身教练还在健身房内挥汗如雨，殊不知，他们其实也是冲浪达人，早已活跃在互联网的前端。
站长网2023-09-04 18:09:03
0000
站长资讯
京东云言犀推出文旅服务数字人“花木兰”
京东云言犀数字人花木兰正式入职大同文旅，这标志着大同文旅与京东云合作推出首个文旅服务数字人。数字人花木兰通过京东云言犀技术支持，能够向游客讲解大同的历史和景点，以中英双语进行交流。
站长网2024-04-26 22:26:06
0001