UC伯克利研究人员推出Ghostbuster:用于检测 LLM 生成文本的最先进 AI 方法
划重点:
🔍 加州大学伯克利分校的研究人员开发了一种名为 Ghostbuster 的新方法,用于检测 LLM 生成的文本。
🧠 Ghostbuster 使用结构化搜索和线性分类的三阶段训练过程,表现出强大的性能。
📈 Ghostbuster 在不同数据集上均表现出色,优于 DetectGPT 和 GPTZero。
LLM,如 ChatGPT,可以轻松地产生各种流利的文本,但是它们的准确性有多高呢?语言模型容易产生事实错误和幻觉,这让读者在决定是否相信一个信息来源时知道是否使用了这些工具来做新闻文章或其他信息文本的幽灵写作。这些模型的发展也引发了对文本的真实性和原创性的担忧,许多教育机构也限制了 ChatGPT 的使用,因为内容很容易生成。
目前存在许多用于检测 LLM 是否生成内容的框架,如 DetectGPT 和 GPTZero。然而,这些框架在原本未经评估的数据集上的性能有所下降。
近日,加利福尼亚大学伯克利分校的研究人员推出了一种名为Ghostbuster的先进人工智能方法,旨在检测大型语言模型(LLM)生成的文本。这一方法基于结构化搜索和线性分类,通过三个阶段的训练过程,名为概率计算、特征选择和分类器训练,取得了显著的性能提升。
Ghostbuster首先将每个文档转换为一系列向量,通过在一系列语言模型下计算每个令牌的概率来实现。接下来,它通过在向量和标量函数空间上运行结构化搜索过程,选择特征。这些特征通过定义一组操作,将这些概率结合起来,并运行前向特征选择。最后,Ghostbuster在最佳的基于概率的特征和一些额外手动选择的特征上训练一个简单的分类器。
Ghostbuster的分类器是根据通过结构化搜索选择的基于概率的特征和基于词长和最大令牌概率的七个额外特征的组合进行训练的。这些其他特征旨在包含观察到的关于人工智能生成文本的定性启发。
在性能方面,Ghostbuster在训练和测试数据集相似性方面表现稳健。在所有条件下,Ghostbuster的F1分数平均达到97.0,比DetectGPT高出39.6,比GPTZero高出7.5。
Ghostbuster 在除创意写作领域以外的所有领域中优于 RoBERTa 基线,而 RoBERTa 的越域表现要差得多。F1分数是一种常用的衡量分类模型性能的指标。它将精确度和召回率结合成一个单一的值,特别适用于处理不平衡的数据集。
Ghostbuster的出现填补了在非原始评估数据集上性能不佳的检测框架的空白,为更可靠地判断LLM生成文本的真实性提供了新的工具。这对于那些依赖于AI生成内容做出决策的用户来说,具有重要的意义。
论文网址:https://arxiv.org/abs/2305.15047
官网博客:https://bair.berkeley.edu/blog/2023/11/14/ghostbuster/
新加坡南洋理工大学出品!大规模视频分割数据集MeViS,自动识别视频动态主体
文章概要:1)MeVIS数据集包含2006段视频,强调目标物体的运动属性,不能仅从单帧识别。2)提出LMPM基准方法,利用语言理解和运动评估找到视频中语言描述的目标物体。3)研究为发展更高级的语言引导视频分割算法奠定基础。站长网2023-08-26 16:14:340000国产短剧出海用AI换脸变外国人:至少降低20%成本
快科技1月31日消息,据媒体报道,目前不少国产短剧为了出海找到了以低成本获得高回报的新思路使用AI将华人演员的面孔替换为外国演员的模样。据了解,在国内制作一部短剧需要50万元到70万元的成本,而在海外,制作成本将会达到100万元到150万元左右,甚至高出两倍甚至更多。0000台积电总裁:第三季度增加的 AI 需求不能完全弥补库存调整 将进一步下调今年晶圆代工产值预期
站长之家(ChinaZ.com)7月20日消息:台积电今天发布二季度财报显示,合并营收约新台币4808.4亿元,税后纯益约新台币1818亿元,每股盈余为新台币7.01元。台积电第二季度收入同比下降10.0%,净利润和稀释每股收益均下降23.3%。与2023年第一季度相比,第二季度的收入环比下降5.5%,净利润环比下降12.2%。站长网2023-07-20 19:04:360000阿里巴巴大涨超7% 马云大幅增持阿里股票
站长之家(ChinaZ.com)1月24日消息:1月23日,阿里巴巴股价在美股市场收盘时上涨7.85%,达到74.02美元。这一涨幅引发市场广泛关注。此前,有市场消息透露,阿里巴巴集团创始人马云和蔡崇信近期大幅增持了阿里巴巴的股票。阿里巴巴方面表示,马云和蔡崇信的增持行为充分体现了他们对公司前景的看好,以及对公司未来发展、管理团队和战略方向的坚定信心。站长网2024-01-24 09:59:010000曾被指抄袭《仙剑3》!网剧《长月烬明》bgm抄袭网易《阴阳师》:官方回应
快科技4月26日消息,近日,有玩家发现,近日播出的仙侠题材网剧《长月烬明》,在bgm上疑似抄袭网易手游《阴阳师》。对此,《长月烬明》官方回应称,出于支持原创和对知识产权的保护和尊重,在最终鉴定结果确认前,我们先替换掉剧中这段音乐。目前两首曲子正在做专业鉴定,后续情况将另行说明。”站长网2023-04-26 22:10:250001