微软通过提示工程将GPT-4变成医学专家,首次准确率超90%
要点:
微软通过「提示工程」将GPT-4成功转化为医学专家,使用最新提示策略Medprompt在医疗专业领域取得了超过90%的准确率,首次超越其他高度微调的模型。
Medprompt是一个多种提示策略的组合,包括动态少样本选择、自生成思维链和选项洗牌集成,使GPT-4能够在医学领域表现出色,并且该方法具有通用性,可推广到其他专业领域。
在测试中,GPT-4结合Medprompt在MultiMed QA九个基准数据集中均取得最高分,平均准确率达到了91.3%。研究人员还进行了消融实验,发现自动生成思维链对性能提升的贡献最大。
近期微软的研究成果展示了通过「提示工程」成功将GPT-4转化为医学专家的威力。在医学专业领域,GPT-4使用最新提示策略Medprompt在MultiMed QA九个测试集中取得了超过90%的准确率,首次超越其他高度微调的模型,如BioGPT和Med-PaLM。
Medprompt是一个由动态少样本选择、自生成思维链和选项洗牌集成等多种提示策略组成的综合体,使GPT-4能够在医学领域表现出色,同时也具有通用性,可以推广到电气工程、机器学习、法律等专业中。
论文地址:https://arxiv.org/pdf/2311.16452.pdf
其中,动态少样本选择利用训练数据作为少样本示例的来源,通过向量相似度从训练集中选择最相似的样本,避免了对模型参数进行大量更新。
自生成思维链通过要求GPT-4使用特定提示生成思维链,实现了逐步思考和推理,从而提高了模型的细粒度逻辑。选项洗牌集成解决了在选择题中可能存在的位置偏差问题,通过打乱选项顺序并进行多轮预测,最终选择最一致、正确的选项。
在测试中,GPT-4结合Medprompt在MultiMed QA九个基准数据集中表现出色,优于其他微调方法。消融实验进一步验证了Medprompt各组件对整体性能的贡献,其中自动生成思维链步骤对性能提升的贡献最大。
此外,研究人员还探索了Medprompt的跨域泛化能力,发现其在不同领域的数据集上同样取得了显著的提升。这一研究成果引发了广泛关注,被认为是一项能够改变行业的技术。目前我们仍未触及提示的极限,也未达到微调的极限,为未来研究和发展提供了更多的探索空间。
禁止AI施法!博主用Animatediff制作“特异功能手” 视频Raddit爆火
视频来自博主AleksejLotkov最近,一段“AI魔法”视频在Raddit和推特爆火。推特博主AleksejLotkov展示了一段他用Animatediff制作的有趣视频。在视频中,他的手就像拥有特异功能,碰到什么东西,他的手就会变成什么东西。站长网2024-05-24 10:21:080000全系优惠1万元!小鹏G6推出限时购车政策:起售价19.99万元
快科技12月14日消息,据多家媒体报道,小鹏G6全系优惠1万元,售价区间19.99万-26.69万元。此外,下订700/755版车型,还可享至高5000元选装基金以及20英寸运动轮毂5折权益。作为参考,小鹏G6的官方指导价位20.99-27.69万元,该车已于今年6月29日正式上市,共推出了5款车型。0000包小柏用AI“复活”女儿为妻子庆生:成功复刻出数字女儿
站长之家(ChinaZ.com)2月29日消息:2021年,著名音乐人包小柏年仅22岁的女儿包容因病离世,给这位父亲带来了巨大的悲痛。自那以后,包小柏便深陷失去女儿的阴影中,甚至不敢面对亲友的问候。他选择了一种特殊的方式来寄托对女儿的思念——攻读博士学位,并致力于利用AI技术让女儿在数字世界中重生。站长网2024-02-29 15:12:5600002024年胡润百富榜发布:字节跳动张一鸣首次成为中国首富
今日,胡润研究院发布《2024胡润百富榜》,本次共有1,094位个人财富50亿元人民币以上的企业家登上今年胡润百富榜,比去年减少12%(147位)。上榜企业家总财富21万亿元,比去年下降10%(2.4万亿)。千亿级企业家比去年减少4位,至26位。十亿美金企业家比去年减少142位,至753位。站长网2024-10-29 11:09:490000西门子与阿里云合作 借助通义大模型优化Xcelerator体验
昨日,西门子与阿里云签署战略合作协议,双方将发挥在各自领域的技术优势,共同推动云计算、AI大模型与工业等不同场景的融合。根据协议,阿里云正式成为开放式数字商业平台西门子Xcelerator的生态合作伙伴,双方将基于西门子Xcelerator与“通义大模型”,共同探索人工智能在工业等多场景的应用与创新,加速数字化转型。站长网2023-06-30 19:25:030000