MLCommons推出新平台评估AI医疗模型
近年来,医疗行业积极拥抱人工智能,尤其在疫情的推动下。根据 Optum 的一项调查显示,80% 的医疗机构已经制定了人工智能战略,另有15% 计划启动相关项目。为满足需求,包括大型科技公司在内的供应商纷纷推出相关产品。
谷歌最近发布了 Med-PaLM2,这是一个用于回答医学问题和在医学文本中发现洞见的人工智能模型。此外,像 Hippocratic 和 OpenEvidence 等初创公司正在开发模型,为临床医生提供可操作的建议。
然而,随着越来越多针对医学应用的模型上市,了解哪些模型是否能够如广告所述地发挥作用变得越来越具有挑战性。由于医学模型往往是使用来自有限、狭窄的临床环境数据进行训练(例如东海岸的医院),一些模型对特定患者群体,通常是少数族裔群体,显示出偏见,导致在现实世界中产生有害影响。
为了建立一个可靠、可信赖的方法来评估和评价医疗模型,工程协会 MLCommons 开发了一个名为 MedPerf 的新型测试平台。MLCommons 表示,MedPerf 可以在 “多样化的真实医疗数据” 上评估人工智能模型,并保护患者隐私。
MedPerf 是由医疗工作组牵头进行的为期两年的合作成果,得到了行业和学术界的反馈,其中包括20多家公司和20多家学术机构的意见。与 MLCommons 的通用人工智能基准套件(如 MLPerf)不同,MedPerf 设计用于医疗模型的操作人员和客户,即医疗机构,而不是供应商。
通过 “联邦评估”,MedPerf 平台上的医院和诊所可以根据需要评估人工智能模型,并在现场进行评估。
MedPerf 支持流行的机器学习库,以及仅通过 API 提供的私有模型和模型,例如 Epic 和 Microsoft 的 Azure OpenAI Services。
今年早些时候,MedPerf 在一个系统测试中举办了由 NIH 资助的 Federated Tumor Segmentation (FeTS) Challenge,这是一个评估胶质母细胞瘤(一种侵袭性脑)术后治疗模型的大规模比较。MedPerf 今年支持了41个不同的模型的测试,这些模型在32个来自六个大洲的医疗机构的系统上运行,既有本地部署也有云端部署。
根据 MLCommons 的说法,所有模型在与训练数据的患者人口学特征不同的医疗机构中表现出了降低的性能,揭示了其中存在的偏见。
MLCommons 认为,MedPerf 目前主要用于评估放射学扫描分析模型,是实现其通过 “开放、中立和科学方法” 加速医疗人工智能的 “基础步骤”。它呼吁人工智能研究人员使用该平台验证自己的模型,并鼓励数据所有者注册其患者数据,以增加 MedPerf 测试的可靠性。
然而,这个平台是否真正解决了医疗人工智能领域中棘手的问题仍然值得商榷。杜克大学研究人员最近编写的一份报告揭示了人工智能营销和将技术应用于医生、护士及其周围复杂的医疗系统和技术系统的日常工作之间的巨大差距。往往情况并不仅仅是模型的问题,而是如何将技术融入到医疗工作中,包括设备的部署、互联网连接强度以及患者对人工智能辅助评估的反应。
医疗从业者对医疗人工智能持有复杂的观点。雅虎金融的一项调查发现,55% 的医护人员认为这项技术还不准备好使用,只有26% 的人认为可以信任。
这并不意味着医学模型偏见不是一个真正的问题,它确实存在并产生后果。例如,Epic 的系统用于识别败血症病例,但发现错过了许多病例,并经常发出误报。同时,对于不是谷歌或微软这样规模的组织来说,获得多样化、及时的医疗数据并非易事。
然而,将人们的健康问题过分依赖像 MedPerf 这样的平台是不明智的。毕竟,基准测试只能告诉我们故事的一部分。安全地部署医疗模型需要供应商及其客户进行持续、彻底的审计,更不用说研究人员了。缺乏此类测试是不负责任的行为。
AI视野:谷歌推几何模型Alpha Geometry;三星发布AI手机Galaxy S24;Runway更新运动笔刷功能;Midjourney v6下周补齐缩放平移等功能
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📈💻💡大模型动态谷歌推数学几何模型AlphaGeometry【AiBase提要:】🥇AlphaGeometry解决复杂几何问题站长网2024-01-18 15:42:280001长安汽车竞价一字涨停 此前与华为成立新公司
长安汽车A股今日开盘一字涨停,报19.56元,最新市值1940亿元。此前,华为与长安汽车在深圳签署了《投资合作备忘录》,拟成立一家新公司,聚焦智能网联汽车的智能驾驶系统及增量部件的研发、生产、销售和服务。站长网2023-11-27 10:36:570000谷歌推AI音乐实验项目Instrument Playground 能模拟100多种乐器
**划重点:**1.🌐**实验性AI音乐项目:**谷歌推出名为“InstrumentPlayground”的实验性AI项目,通过文本提示即可生成20秒音乐片段。2.🎹**百种乐器模拟:**与其他类似项目相比,谷歌声称该项目可模拟来自世界各地的100多种乐器,包括中国的笛子等。站长网2023-12-05 15:02:000000四行代码让大模型上下文暴增3倍,羊驼Mistral都适用
无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍!而且是“即插即用”,理论上可以适配任意大模型,目前已在Mistral和Llama2上试验成功。有了这项技术,大模型(LargeLM)就能摇身一变,成为LongLM。近日,来自得克萨斯农工大学等机构的华人学者们发布了全新的大模型窗口扩展方法SelfExtended(简称SE)。0000ChatGPT新功能或将推出:工作区、文件上传、配置文件
有用户发现,OpenAI似乎正在为ChatGPT准备另一次更新。据报道,Reddit用户“kocham_psy”在ChatGPT的源代码中第一眼看到了ChatGPT可能新版本的界面。他声称,自己使用了一个脚本来欺骗网站认为他的帐户可以访问所有功能。其在新近上线的聊天分享功能正式发布前一周就发现了。站长网2023-06-12 17:12:550000