研究显示 ChatGPT 4.0 在事实核查中优于谷歌 Bard、微软 Bing AI 等其他模型
站长之家(ChinaZ.com) 7月18日消息:大型语言模型(LLM)是自然语言处理(NLP)技术的进化,能够快速生成与人类写作相似的文本并完成其他简单的与语言相关的任务。自 OpenAI 发布高性能的 ChatGPT 之后,这些模型变得越来越受欢迎。

迄今为止,研究主要评估 LLM 的能力,例如创建写作流畅的文本、定义特定术语、撰写论文或其他文件以及生成有效的计算机代码。然而,这些模型在解决其他真实世界问题,包括假新闻和虚假信息方面也具有潜在的帮助。
威斯康星大学斯托特分校的研究员 Kevin Matthe Caramancion 最近进行了一项研究,评估迄今为止最知名的 LLM 能否检测新闻故事的真实性或虚假性。他在 arXiv 上发表的论文提供了有价值的见解,这可能有助于今后使用这些先进模型来对抗在线的错误信息。
Caramancion 告诉 Tech Xplore 说:「我最近的论文灵感来自于了解各种 LLM 在对抗错误信息方面的能力和局限性的需求。我的目标是通过一个受控模拟和已建立的事实核查机构作为基准,对这些模型的熟练程度进行严格测试,以辨别真实与虚构的能力。」
Caramancion 表示:「我们使用 100 个经过独立事实核查机构核实的新闻项目作为测试套件,评估了这些大型语言模型的性能。我们将每个新闻项目在受控条件下呈现给模型,然后将它们的回应分类为「真实」、「虚假」和「部分真实/虚假」。根据与独立机构提供的核实事实相比较,测量了模型的有效性。」
随着互联网和社交媒体的迅速发展,不管信息是真实还是虚假,错误信息已经成为近几十年来的一个重要挑战。许多计算机科学家一直在努力开发更好的事实核查工具和平台,使用户能够验证他们在网上阅读到的新闻。
尽管迄今为止已经创建和测试了许多事实核查工具,但仍缺乏一个被广泛接受和可靠的模型来对抗错误信息。作为他研究的一部分,Caramancion 致力于确定现有 LLM 在解决这一全球性问题方面的有效性。
他具体评估了四个 LLM 的性能,分别是 OpenAI 的 ChatGPT-3.0 和 ChatGPT-4.0、Google 的 Bard/LaMDA 和微软的 Bing AI。Caramancion 给这些模型提供了相同的事实核查过的新闻故事,然后比较它们在确定故事的真实性、虚假性或部分真实/虚假性方面的能力。
Caramancion 表示:「我们对主要 LLM 的区分事实和虚构能力进行了比较评估。我们发现 OpenAI 的 GPT-4.0 表现最佳,这暗示了较新的 LLM 的进步。然而,所有模型都落后于人类事实核查员,强调了人类认知不可替代的价值。这些发现可能导致更加关注开发用于事实核查的人工智能能力,同时确保与人类技能的平衡、共生整合。」
Caramancion 进行的评估表明,ChatGPT 4.0 在事实核查任务上明显优于其他知名的 LLM。进一步对更多虚假新闻进行测试的研究可能有助于验证这一发现。
研究人员还发现,人类事实核查员仍然优于他评估的所有主要 LLM。他的研究凸显了需要进一步改进这些模型或将它们与人类工作者的工作相结合,如果要将它们应用于事实核查工作。
Caramancion 补充说:「我的未来研究计划集中在研究人工智能能力的发展,重点是如何利用这些进展,同时不忽视人类独特的认知能力。我们的目标是改进我们的测试协议,探索新的 LLM,并进一步研究在新闻事实核查领域人类认知和人工智能技术之间的相互关系。」
任正非称华为产品不够先进不会拿出来卖:卖不了高价 养不活队伍
近日,任正非在与南开大学新闻与传播学院院长刘亚东的访谈中透露了华为当前的经营状况和发展思路。任正非强调,华为不会拿出不够先进的产品进行销售,卖不了高价,我也养不活队伍。他坦言,在当前严峻的外部环境下,华为将面临越来越多的困难,但同时也将迎来更加繁荣的局面。站长网2023-09-22 09:58:390001用AI拍出海短剧,一部成本立省60万
上个月,很多短剧群以及推特上突然开始流传一个使用了AI换脸技术的短剧片段。利用AI技术,短剧中中国面孔的演员摇身变成欧美男主,各种小表情、神态还挺到位。视频一出,很多从业者就很兴奋,在原本翻译短剧出海的基础上,这种低成本短剧出海模式,看起来有望在视觉层面的本地化上更进一步。站长网2023-12-08 09:06:200003王小川旗下百川智能宣布完成3亿美元A1轮融资
百川智能公司今日宣布完成了3亿美元的A1轮战略融资,这次融资吸引了包括阿里、腾讯、小米等科技巨头和多家顶级投资机构的参与。站长网2023-10-18 21:14:550000独家|美团首个AI产品“Wow”亮相,押注交互伴聊
美团AI产品首发,切入交互聊天赛道Tech星球体验发现,Wow是一款AI伴聊产品,这是AI的一个主流应用场景。目前已经有腾讯音乐的“未伴”、百度的“小侃星球”等类似产品相继面世。Wow的产品设计较为简洁,整个产品由聊天、发现和个人中心三个Tab标签。站长网2023-11-07 08:56:040001蚂蚁集团正式完成投票权结构调整 变更为无实际控制人
据中国人民银行12月29日消息,人民银行同意支付宝(中国)网络技术有限公司变更为无实际控制人。作为蚂蚁集团的关联公司,恒生电子和国泰产险也于当日发布公告,由于蚂蚁集团股东上层投票权结构调整相关各方已履行程序并完成交割,三家公司均变更为无实际控制人。0000