LLM不靠谱!研究:AI聊天机器人提供了错误的癌症治疗建议
文章概要:
1. 研究人员评估了大语言模型聊天机器人提供癌症治疗建议的可靠性,发现33.33%的建议与确立的指南不完全一致。
2. 研究强调了AI技术渗透医疗决策时需谨慎和监管的必要性。
3. 聊天机器人的建议与NCCN指南不完全一致,专家也未能检测到这些错误,凸显LLM聊天机器人在提供可靠和精确的癌症治疗建议方面的表现低于平均水平。
在最近发表在 《JAMA Oncology》杂志上的一篇文章中,研究人员评估了由人工智能 (AI) 算法驱动的大型语言模型 (LLM) 驱动的聊天机器人是否可以提供准确可靠的癌症治疗建议。
关于该研究
在本研究中,研究人员评估了大语言模型聊天机器人在提供前列腺癌、肺癌和乳腺癌治疗建议方面的表现,该建议与国家综合癌症网络 (NCCN) 指南一致。
研究人员开发了四个零样本提示模板,并用于创建26种癌症诊断描述的四个变体,最终获得了104个提示。然后将这些提示作为输入提供给GPT-3.5。
研究团队由四名经过委员会认证的肿瘤学家组成,其中三人根据研究人员制定的五项评分标准评估了聊天机器人输出与2021年 NCCN 指南的一致性。采用多数决原则来确定最终得分。
第四位肿瘤学家帮助其他三位解决了分歧,这些分歧主要是在法学硕士聊天机器人输出不清楚时出现的。例如,大语言模型没有具体说明针对特定类型的癌症应结合哪些治疗方法。
研究结果
该研究对聊天机器人提供的104条癌症治疗建议进行了评估。结果显示33.3%的建议至少部分不符合NCCN指南,被视为错误或不准确的。
聊天机器人对98%的提示给出了至少一个治疗建议。所有包含治疗建议的回复中,至少有一个治疗方法与NCCN指南一致。
但是在102条产出中,有35条包含一个或多个不一致的治疗方法,占34.6%。这意味着超过三分之一的建议包含了错误信息。
聊天机器人提供的建议根据提问方式而变化。当提问不明确时,它的回复也变得模糊,导致评估者之间出现分歧。
本研究中评估的大语言模型士聊天机器人将错误的癌症治疗建议与正确的建议混合在一起,即使是专家也未能发现这些错误。
研究结果表明,大语言模型聊天机器人在提供可靠且精确的癌症治疗建议方面表现低于平均水平。
鉴于AI的广泛使用,医疗保健提供者需要适当教育病人有关这项技术可能提供的错误信息的潜在风险。这些发现还强调了针对AI及其他潜在危害公众的技术制定联邦法规的重要性。
苹果M4芯片有望明年一季度发布 主打AI功能
彭博社知名记者马克・古尔曼最近透露,苹果公司正全力以赴开发搭载M4芯片的全新MacBookPro。与此同时,Canalys机构发布的一份引人瞩目的路线图显示,备受期待的M4系列芯片有望在2025年第一季度正式亮相。站长网2024-04-02 00:31:490000认知决策智能公司渊亭科技完成亿元B+轮融资
近日,渊亭科技完成了亿元B轮融资,由多个国家级和地方级基金共同投资。渊亭科技将进一步扩大在认知决策智能市场的规模,持续深耕前沿技术研发与应用,尤其是加强在可信AI方面的深入研究,为国防、金融、政务、工业互联网等行业数字化、智能化升级赋能。站长网2023-07-05 09:43:030001“沉迷”兼职的年轻人
刚刚过去的五一假期,有人被堵在路上,有人被挤在景区,还有一些年轻人,选择就地做兼职,错峰避人,还能赚点钱。今年的情况确实不同往日。疫情之后的第一次小长假,出游热达到了高峰,饭店、奶茶店、热门景点人手紧缺。另一边,兼职面向的是学生群体和部分待业人士,他们在兼职的同时,还能留在当地打打短工,错峰出游。0000拿下全球第一!报告:华为手机今年Q1折叠屏市场超越三星
快科技3月18日消息,华为手机又拿个第一,而且是全球性质的。机构DSCC给出的数据显示,2023年第四季度全球折叠屏手机市场中,销量最高的10款手机中,三星占4款,荣耀和OPPO各占2款,华为和小米各占1款。站长网2024-03-18 16:45:150000OpenAI 宣布将把 ChatGPT Plus 用户 GPT-4 对话数量增加一倍至每 3 小时 50 条
OpenAI官方今天宣布,将把ChatGPTPlus客户发送到GPT-4的对话数量增加一倍。新上限将在下周推出,即每3小时50条。在GPT-4模式中,每3小时的信息限制从25条扩大到50条,这对用户和开发人员都有好处。上限提高后,用户可以进行更长、更深入的对话,而不必担心过早超出上限。这样就可以更深入地探讨主题,探索更复杂的话题,并做出更全面的回复。站长网2023-07-20 15:37:060007