如何在科学研究中使用AI,避免走偏?
划重点:
🔍 一项新的统计技术,预测驱动推断(PPI),帮助科研人员安全地使用机器学习预测来验证科学假设。
🔍 机器学习模型可以加速科学发现,但也可能导致误导性或错误的结果。
🔍 PPI技术允许科学家在不了解模型错误性质的情况下,纠正大型通用模型的输出,以适应特定科学问题。
近十年来,人工智能已经渗透到科学的各个领域。机器学习模型已被用于预测蛋白质结构、估算亚马逊雨林的砍伐比例,甚至分类可能存在系外行星的遥远星系。然而,虽然AI可以加速科学发现,但它也可能误导科学家。与聊天机器人有时会“产生幻觉”或编造信息类似,机器学习模型有时也会呈现误导性甚至明显错误的结果。
加州大学伯克利分校的研究人员在一篇在线发表的《科学》论文中提出了一种新的统计技术,用于安全地使用机器学习模型的预测来验证科学假设。这项技术被称为“预测驱动推断”(PPI),它利用一小部分真实世界数据来在特定科学问题的背景下纠正大型通用模型的输出,例如AlphaFold,该模型用于预测蛋白质结构。

图源备注:图片由AI生成,图片授权服务商Midjourney
这些模型旨在通用性,它们可以回答许多问题,但我们不知道它们回答哪些问题得心应手,哪些问题回答不好。如果你无知地使用它们,不知道自己处于哪种情况,你可能会得到错误答案。PPI技术使你能够使用这些模型,但也能够在不了解错误性质的情况下进行纠正。
在科学实验中,科学家们通常不仅寻找一个答案,而是想要获得一系列可能的答案。这是通过计算“置信区间”来实现的,最简单的情况下可以通过多次重复实验并观察结果的变化来找到。然而,大多数科学研究中,置信区间通常是指总结或综合的统计数据,而不是个别数据点。不幸的是,机器学习系统关注个别数据点,因此不能为科学家提供他们关心的不确定性评估。例如,AlphaFold预测了单个蛋白质的结构,但它没有提供该结构的置信度概念,也没有提供与蛋白质的一般性质相关的置信区间的获取方式。
科学家可能会试图将AlphaFold的预测用作数据,以计算经典置信区间,而忽视了这些预测不是数据的事实。这种方法的问题在于,机器学习系统具有许多潜在偏见,这可能会使结果产生偏差。这些偏见部分来自它们所训练的数据,这些数据通常是现有的科学研究,可能没有与当前研究具有相同的关注点。
PPI技术允许科学家将AlphaFold等模型的预测纳入其中,而不对模型的构建方式或训练数据做出任何假设。为了做到这一点,PPI需要一小部分与正在调查的特定假设无关的无偏数据,以及与该数据对应的机器学习预测。通过将这两个证据来源结合在一起,PPI能够形成有效的置信区间。
研究团队将PPI技术应用于使用卫星图像来定位亚马逊雨林砍伐区域的算法。这些模型在森林中的不同地区进行单独测试时通常是准确的,但当将这些评估结合在一起以估计整个亚马逊雨林的砍伐情况时,置信区间变得高度倾斜。这可能是因为模型难以识别某些较新的砍伐模式。通过PPI,团队能够使用少量人工标记的砍伐区域来纠正置信区间中的偏见。
研究团队还展示了这种技术如何应用于各种其他研究领域,包括蛋白质折叠、星系分类、基因表达水平、浮游生物计数以及收入与私人医疗保险之间的关系。这一方法可以应用于各种问题,是现代数据密集、模型密集和合作科学的必需组成部分。
小红书如何合规铺量做笔记?商家运营新思路
哈喽,大家好,我是江河,今天来聊小红书铺量,过去我对“铺量”始终有抵触心理。但我看到一些品牌,依靠批量铺直发类达人、配合广告投放,慢慢从白牌转到品牌,铺量仍适合前期打法;我也逐步意识到,批量饱和度投放,不就是广告投放的本质吗?脑白金、喜之郎、小罐茶等品牌,不就是依靠多套优质素材,大众媒体批量投放实现。在小红书如何合规铺量,除直发商单笔记外,还可以通过晒单笔记完成;一、什么是晒单笔记?站长网2024-05-07 20:32:320000东方甄选的“小号”,悄悄超越罗永浩
东方甄选模仿秀大都没能获得成功,除了东方甄选自己。第三方数据平台飞瓜数据显示,在618收官之战当天,东方甄选旗下账号“东方甄选美丽生活”带货额为1000万-2500万元,超过了交个朋友抖音直播间的500万-750万元。而抖音整个618期间(5月25日-6月18日),东方甄选美丽生活带货直播销售额为2.5亿-5亿元,交个朋友抖音直播间销售额同样为2.5亿-5亿元。站长网2023-06-24 14:17:060000告别5美元包邮,Temu和Shein还是比亚马逊便宜
跨境电商口中的“美区”再度上演TikTok式的一日反转。美国邮政服务(USPS)当地时间周二(2月4日)晚间宣布,从2月4日起暂停接收从中国内地和中国香港寄出的包裹,直至另行通知。不过仅半日,政策更改,美国邮政将继续接收来自中国内地和香港邮局的入境包裹。这场变动源于美国新任总统特朗普在2月1日签署的行政令:对进口自中国的商品加征10%的关税,同时取消800美元的免税政策,2月4日正式生效。0000麻省理工学院的新人工智能模型检测胰腺癌的早期迹象
麻省理工学院(MITCSAIL)的人工智能实验室与哈佛大学放射肿瘤学系的LimorApelbaum博士合作,提出了两种新的人工智能模型,称为PRISM神经网络(PrismNN)和逻辑回归(PrismLR),用于早期检测胰腺导管腺癌(PDAC),这是一种致命的癌症。图源备注:图片由AI生成,图片授权服务商Midjourney发现的重要性站长网2024-01-19 15:42:320000可商用的ai作曲软件Soundraw 支持多种风格,不限时长
Soundraw是一个AI音乐生成工具,可以根据用户选择的心情、流派和长度自动生成美妙的歌曲。用户只需选择喜欢的音乐流派、情感氛围等,SOUNDRAW的AI系统就可以为用户生成无限的专属音乐。体验地址:https://soundraw.io/用户可以自定义歌曲,例如缩短前奏或改变副歌位置,以适应视频的需要。此外,Soundraw的音乐无需担心版权警示,支持商用。主要功能:站长网2023-08-29 11:12:450001