MLCommons推出新平台评估AI医疗模型

站长网2023-07-18 19:02:010阅

近年来，医疗行业积极拥抱人工智能，尤其在疫情的推动下。根据 Optum 的一项调查显示，80% 的医疗机构已经制定了人工智能战略，另有15% 计划启动相关项目。为满足需求，包括大型科技公司在内的供应商纷纷推出相关产品。

谷歌最近发布了 Med-PaLM2，这是一个用于回答医学问题和在医学文本中发现洞见的人工智能模型。此外，像 Hippocratic 和 OpenEvidence 等初创公司正在开发模型，为临床医生提供可操作的建议。

然而，随着越来越多针对医学应用的模型上市，了解哪些模型是否能够如广告所述地发挥作用变得越来越具有挑战性。由于医学模型往往是使用来自有限、狭窄的临床环境数据进行训练（例如东海岸的医院），一些模型对特定患者群体，通常是少数族裔群体，显示出偏见，导致在现实世界中产生有害影响。

为了建立一个可靠、可信赖的方法来评估和评价医疗模型，工程协会 MLCommons 开发了一个名为 MedPerf 的新型测试平台。MLCommons 表示，MedPerf 可以在 “多样化的真实医疗数据” 上评估人工智能模型，并保护患者隐私。

MedPerf 是由医疗工作组牵头进行的为期两年的合作成果，得到了行业和学术界的反馈，其中包括20多家公司和20多家学术机构的意见。与 MLCommons 的通用人工智能基准套件（如 MLPerf）不同，MedPerf 设计用于医疗模型的操作人员和客户，即医疗机构，而不是供应商。

通过 “联邦评估”，MedPerf 平台上的医院和诊所可以根据需要评估人工智能模型，并在现场进行评估。

MedPerf 支持流行的机器学习库，以及仅通过 API 提供的私有模型和模型，例如 Epic 和 Microsoft 的 Azure OpenAI Services。

今年早些时候，MedPerf 在一个系统测试中举办了由 NIH 资助的 Federated Tumor Segmentation （FeTS） Challenge，这是一个评估胶质母细胞瘤(一种侵袭性脑)术后治疗模型的大规模比较。MedPerf 今年支持了41个不同的模型的测试，这些模型在32个来自六个大洲的医疗机构的系统上运行，既有本地部署也有云端部署。

根据 MLCommons 的说法，所有模型在与训练数据的患者人口学特征不同的医疗机构中表现出了降低的性能，揭示了其中存在的偏见。

MLCommons 认为，MedPerf 目前主要用于评估放射学扫描分析模型，是实现其通过 “开放、中立和科学方法” 加速医疗人工智能的 “基础步骤”。它呼吁人工智能研究人员使用该平台验证自己的模型，并鼓励数据所有者注册其患者数据，以增加 MedPerf 测试的可靠性。

然而，这个平台是否真正解决了医疗人工智能领域中棘手的问题仍然值得商榷。杜克大学研究人员最近编写的一份报告揭示了人工智能营销和将技术应用于医生、护士及其周围复杂的医疗系统和技术系统的日常工作之间的巨大差距。往往情况并不仅仅是模型的问题，而是如何将技术融入到医疗工作中，包括设备的部署、互联网连接强度以及患者对人工智能辅助评估的反应。

医疗从业者对医疗人工智能持有复杂的观点。雅虎金融的一项调查发现，55% 的医护人员认为这项技术还不准备好使用，只有26% 的人认为可以信任。

这并不意味着医学模型偏见不是一个真正的问题，它确实存在并产生后果。例如，Epic 的系统用于识别败血症病例，但发现错过了许多病例，并经常发出误报。同时，对于不是谷歌或微软这样规模的组织来说，获得多样化、及时的医疗数据并非易事。

然而，将人们的健康问题过分依赖像 MedPerf 这样的平台是不明智的。毕竟，基准测试只能告诉我们故事的一部分。安全地部署医疗模型需要供应商及其客户进行持续、彻底的审计，更不用说研究人员了。缺乏此类测试是不负责任的行为。

MLCommons推出新平台评估AI医疗模型

0000

评论列表

共(0)条

相关推荐

一加Ace 3支持雨水触控湿手轻松操作手机
一加Ace3即将于1月4日正式发布，一加的李杰表示，一加Ace3将支持一项创新功能——雨水触控。一加Ace3的雨水触控功能不仅解决了一系列生活痛点，还让用户在湿手、雨水等情况下都能轻松操作手机。这种“旦用难回”的体验让一加Ace3成为用户日常生活和工作中的得力助手。
站长网站长资讯2023-12-29 16:14:16
0000
站长资讯
vivo X100价格公布售价3999元起
vivo宣布将于11月13日发布vivoX100系列影像旗舰。现在，官方已经正式公布了vivoX100标准版的价格:3999元（12GB256GB）。这款手机是全球首款搭载联发科天玑9300旗舰处理器的机型。据悉，此次vivoX100系列将同时推出X100和X100Pro两款机型，它们都搭载了联发科天玑9300平台。
站长网2023-11-01 16:32:21
0004
站长资讯
GPT-4通过哈佛第一学期人文社会科学实验
哈佛大学学生玛雅·博德尼克（MayaBodnick）进行了一项实验，想看看GPT-4能否通过哈佛大学一年级人文社会科学家庭论文的考验。博德尼克让GPT-4撰写了七篇论文，主题涵盖经济概念、拉丁美洲的总统主义以及对普鲁斯特一段话的文学分析。她将这些论文交给教授评分，同时说明论文是由她或GPT-4撰写的，以测试评分的客观性。
站长网2023-07-31 09:58:15
0000
中国最高规格！苹果上海静安Apple Store开业：库克亲自揭幕
快科技3月21日消息，今晚19:00，苹果上海静安AppleStore零售店正式开业，苹果CEO蒂姆库克亲临现场，为新店揭幕。根据现场视频，倒数结束后，库克打开上海静安AppleStore大门，并与现场排队的第一位顾客合影。据了解，上海静安店是苹果大中华区第57家AppleStore，也是中国最高规格的苹果旗舰店，等级仅次于纽约第五大道的全球苹果旗舰店。
站长网站长资讯2024-03-22 10:04:55
0000
站长资讯
半年营收12亿，三只松鼠抖音“翻身记”
时至今日，抖音已然取代天猫，成了三只松鼠线上渠道最重要的收入来源。根据三只松鼠今年8月底披露的2024年中报，2024年上半年，三只松鼠第三方电商平台营业收入40.9亿元，占总营收的81%。其中，来自抖音平台的收入为12.2亿元，同比增长了180.7%。而原来的线上主要渠道——天猫系和京东系收入分别为10.83亿元和7.93亿元，涨幅都不到三成。图源:三只松鼠2024年中报
站长网2024-12-18 21:06:02
0000