UC伯克利研究人员推出Ghostbuster:用于检测 LLM 生成文本的最先进 AI 方法
划重点:
🔍 加州大学伯克利分校的研究人员开发了一种名为 Ghostbuster 的新方法,用于检测 LLM 生成的文本。
🧠 Ghostbuster 使用结构化搜索和线性分类的三阶段训练过程,表现出强大的性能。
📈 Ghostbuster 在不同数据集上均表现出色,优于 DetectGPT 和 GPTZero。
LLM,如 ChatGPT,可以轻松地产生各种流利的文本,但是它们的准确性有多高呢?语言模型容易产生事实错误和幻觉,这让读者在决定是否相信一个信息来源时知道是否使用了这些工具来做新闻文章或其他信息文本的幽灵写作。这些模型的发展也引发了对文本的真实性和原创性的担忧,许多教育机构也限制了 ChatGPT 的使用,因为内容很容易生成。
目前存在许多用于检测 LLM 是否生成内容的框架,如 DetectGPT 和 GPTZero。然而,这些框架在原本未经评估的数据集上的性能有所下降。
近日,加利福尼亚大学伯克利分校的研究人员推出了一种名为Ghostbuster的先进人工智能方法,旨在检测大型语言模型(LLM)生成的文本。这一方法基于结构化搜索和线性分类,通过三个阶段的训练过程,名为概率计算、特征选择和分类器训练,取得了显著的性能提升。
Ghostbuster首先将每个文档转换为一系列向量,通过在一系列语言模型下计算每个令牌的概率来实现。接下来,它通过在向量和标量函数空间上运行结构化搜索过程,选择特征。这些特征通过定义一组操作,将这些概率结合起来,并运行前向特征选择。最后,Ghostbuster在最佳的基于概率的特征和一些额外手动选择的特征上训练一个简单的分类器。
Ghostbuster的分类器是根据通过结构化搜索选择的基于概率的特征和基于词长和最大令牌概率的七个额外特征的组合进行训练的。这些其他特征旨在包含观察到的关于人工智能生成文本的定性启发。
在性能方面,Ghostbuster在训练和测试数据集相似性方面表现稳健。在所有条件下,Ghostbuster的F1分数平均达到97.0,比DetectGPT高出39.6,比GPTZero高出7.5。
Ghostbuster 在除创意写作领域以外的所有领域中优于 RoBERTa 基线,而 RoBERTa 的越域表现要差得多。F1分数是一种常用的衡量分类模型性能的指标。它将精确度和召回率结合成一个单一的值,特别适用于处理不平衡的数据集。
Ghostbuster的出现填补了在非原始评估数据集上性能不佳的检测框架的空白,为更可靠地判断LLM生成文本的真实性提供了新的工具。这对于那些依赖于AI生成内容做出决策的用户来说,具有重要的意义。
论文网址:https://arxiv.org/abs/2305.15047
官网博客:https://bair.berkeley.edu/blog/2023/11/14/ghostbuster/
微博搭载第三方AI绘画服务 输入文本即可生成图片
今天,小编发现不少微博大V都在玩一个绘画指令。在微博输入“#召唤服务生成#@星汉未来(你想要的画面描述)”就可以生成4张图像。需要注意的是,按照上面的格式发布完后,还需要到微博私信授权才能使用服务。目前,普通粉丝全部累计服务限额50次,V粉丝每天服务限额20次。站长网2023-08-11 15:48:530000一大波特斯拉人形机器人上线,马斯克震撼官宣2款新车!
【新智元导读】这次特斯拉股东日,虽没有新车,但马斯克确定Cybertruck今年一定会来。特斯拉股东日,依旧没有新车。万众瞩目的马斯克登台继续画饼,「我不官宣新车,不过新车年销量会超过500万」。马斯克向所有人展示了特斯拉正在研发的2款新车,新车的样子在屏幕中一闪而过。具体配置,只字未提。从比例可以看出就是传说的Model2,或者ModelQ了。站长网2023-05-17 14:26:220000瑞幸回应与迪奥联名:暂未接到相关通知
和其他品牌联名已经成为瑞幸咖啡的一大营销引流特点。日前,有传闻瑞幸咖啡准备与法国时尚巨头克里斯汀·迪奥联名。曝光的截图显示,疑似瑞幸和迪奥合作的主题手提袋已经出现。对此,截至10月15日,瑞幸官方客服回应表示,他们暂时未接到任何相关通知,以确保最准确的信息,还需等待官方消息的确认。站长网2023-10-15 16:01:430000度小满与哈工大共建“人工智能(大模型)联合研究中心”
今日,度小满与哈尔滨工业大学宣布共同成立“哈尔滨工业大学-度小满人工智能(大模型)联合研究中心”。双方将围绕大模型基座研发、大模型技术原理及其应用技术等领域展开前沿研究,旨在提升大模型的技术创新能力和实际应用效果。双方还将共同培养生成式人工智能技术领域的领军人才,推动前沿技术的产业化应用加速。站长网2023-06-02 11:58:260006媒体公司AI生成文章引发担忧,编辑和工会抗议缺乏透明度
媒体公司G/OMedia最近在其出版物中引入了AI生成的文章,但立即面临事实错误和编辑过程缺乏透明度的问题。这些出版物包括Gizmodo和TheA.V.Club。一篇AI生成的文章列出了所有的《星球大战》电影的时间顺序,但却出现了错误,引发了这些媒体记者的担忧。记者们对于AI部署和使用的透明度缺乏提出了反对意见。站长网2023-07-10 16:49:180001