LLM不靠谱!研究:AI聊天机器人提供了错误的癌症治疗建议
文章概要:
1. 研究人员评估了大语言模型聊天机器人提供癌症治疗建议的可靠性,发现33.33%的建议与确立的指南不完全一致。
2. 研究强调了AI技术渗透医疗决策时需谨慎和监管的必要性。
3. 聊天机器人的建议与NCCN指南不完全一致,专家也未能检测到这些错误,凸显LLM聊天机器人在提供可靠和精确的癌症治疗建议方面的表现低于平均水平。
在最近发表在 《JAMA Oncology》杂志上的一篇文章中,研究人员评估了由人工智能 (AI) 算法驱动的大型语言模型 (LLM) 驱动的聊天机器人是否可以提供准确可靠的癌症治疗建议。
关于该研究
在本研究中,研究人员评估了大语言模型聊天机器人在提供前列腺癌、肺癌和乳腺癌治疗建议方面的表现,该建议与国家综合癌症网络 (NCCN) 指南一致。
研究人员开发了四个零样本提示模板,并用于创建26种癌症诊断描述的四个变体,最终获得了104个提示。然后将这些提示作为输入提供给GPT-3.5。
研究团队由四名经过委员会认证的肿瘤学家组成,其中三人根据研究人员制定的五项评分标准评估了聊天机器人输出与2021年 NCCN 指南的一致性。采用多数决原则来确定最终得分。
第四位肿瘤学家帮助其他三位解决了分歧,这些分歧主要是在法学硕士聊天机器人输出不清楚时出现的。例如,大语言模型没有具体说明针对特定类型的癌症应结合哪些治疗方法。
研究结果
该研究对聊天机器人提供的104条癌症治疗建议进行了评估。结果显示33.3%的建议至少部分不符合NCCN指南,被视为错误或不准确的。
聊天机器人对98%的提示给出了至少一个治疗建议。所有包含治疗建议的回复中,至少有一个治疗方法与NCCN指南一致。
但是在102条产出中,有35条包含一个或多个不一致的治疗方法,占34.6%。这意味着超过三分之一的建议包含了错误信息。
聊天机器人提供的建议根据提问方式而变化。当提问不明确时,它的回复也变得模糊,导致评估者之间出现分歧。
本研究中评估的大语言模型士聊天机器人将错误的癌症治疗建议与正确的建议混合在一起,即使是专家也未能发现这些错误。
研究结果表明,大语言模型聊天机器人在提供可靠且精确的癌症治疗建议方面表现低于平均水平。
鉴于AI的广泛使用,医疗保健提供者需要适当教育病人有关这项技术可能提供的错误信息的潜在风险。这些发现还强调了针对AI及其他潜在危害公众的技术制定联邦法规的重要性。
三次“押题”,看懂拼多多高质量发展
3月20日,拼多多集团发布2023年四季度及全年财报,营收和利润都大幅增长。在财报随后的电话会上,拼多多管理层多次强调拼多多过去一年的发展战略,不是优先考虑盈利,而是高质量发展,且2024年或中长期,这一战略重点不会改变。拼多多去年的研发投入再度超过百亿,创历史新高。拼多多集团执行董事、联席CEO赵佳臻在电话会上提到,2024年,将继续加大对优质消费、优质供给、平台生态三大重点领域的投入。0000独立开发变现周刊(第149期):每月收入100万美元的 AI 写作 SaaS
目录:1、Follow:新一代信息汇集查看器2、【增长技巧】一个小改变收入增长80%3、Videco:AI驱动的个性化互动视频工具4、3个月内将Submagic从零增长到年收入100万美元5、每月100万美元的AI写作SaaS1、Follow:新一代信息汇集查看器站长网2024-09-14 02:33:420000Cd0.194!小鹏M03成全球风阻量产纯电掀背轿车
快科技6月20日消息,小鹏MONA系列首车M03更多信息公布,官方表示该车风阻Cd仅0.194,凭借此,这款车也成为了全球最低风阻量产纯电掀背轿车。据悉,小鹏M03拥有近1米长的主动式进气格栅(AGS),可将风阻降低0.023Cd,同时还配备有导风后护板、地风阻弧形气坝、低风阻轮毂、流媒体后视镜、气动流线鸭尾等。以上种种共同作用下,让小鹏M03风阻低到了0.194,而续航里程最高提升60公里。站长网2024-06-21 21:30:420000阿里钉钉与华为达成合作 启动“钉钉鸿蒙版”开发
11月23日消息,钉钉与华为举办鸿蒙原生应用开发启动仪式,双方将在产业创新、技术应用、商业发展等领域全面合作,并正式启动“钉钉鸿蒙版”的开发。鸿蒙最新数据显示,截至今年8月份,鸿蒙生态设备数已超过7亿,开发者突破220万人。目前,钉钉上有超过6亿用户、2300万企业组织。钉钉自2023年4月以来,通过接入大模型已完成17个产品线、60多个场景的AI改造,目前有50多万家企业在使用钉钉AI。站长网2023-11-23 16:01:07000020步内越狱任意大模型!更多“奶奶漏洞”全自动发现
1分钟不到、20步以内“越狱”任意大模型,绕过安全限制!而且不必知道模型内部细节——只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。听说曾经红极一时的“奶奶漏洞”已经被修复了:那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI又该如何应对?一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。站长网2023-11-06 09:14:580001