GPT-4在医学问题上击败了专业调优的 MedPaLM 2 模型
在研究中,微软的研究人员展示了GPT-4在医学知识测试中的卓越表现,特别是当结合先进的提示工程技术时,其性能超过了专业调整的MedPaLM2。
研究结果显示,相较于费时费力的调优和模型训练,将更有效的提示工程应用于主流通用模型可能是实现更准确结果的更好途径。
Medprompt方法采用了多种提示工程技术,包括GPT-4生成的思维链推理和生成多个单独评分的回答,然后将最高分的答案返回给用户。尽管这种方法会增加推理的成本,因为生成了更多的标记,但结果表明,将领先的通用模型(如GPT-4)与高级提示工程技术相结合,以评估最新性能的标准,可能是值得考虑的。
研究人员使用MultiMedQA数据集进行了一系列测试,包括MedQA、MedMCQA、PubMedQA和MMLU等。虽然测试仍然是多项选择答案,但研究强调,这些结果可能在真实世界的自由文本回答中有所不同。Medprompt方法结合了从零到5个提示技术,展现出了强大的性能。
值得注意的是,研究强调GPT-4生成的思维链推理相对于专家手工制作的Med-PaLM2提示更为优越,因为它提供了更精细的逐步推理逻辑。然而,研究也指出,这一结论是特定于GPT-4的,而不适用于其他通用基础模型。
对于企业部署领域专业生成性AI解决方案的实际操作,研究建议在转向调优或定制模型训练之前,应考虑如何通过提示工程技术提高模型准确性。此外,高级提示工程技术,如模型生成的提示和集成评分,可能进一步改善调优或定制模型。
总的来说,研究的重要性在于发现通过提示工程技术可能实现与调优相媲美的性能,从而加速上市时间并降低成本。然而,研究也指出,企业选择使用通用基础模型还受到数据隐私、数据和应用程序安全性、成本和竞争优势等多方面因素的影响。
研究者强调,改进大语言模型输出的准确性是当前讨论的中心主题,而通过提示工程技术可能是最简单、成本最低的方法之一。
研究结果可能对领域定制模型的开发产生重大影响,因为如果通过更有效的提示工程技术可以获得相同或更好的性能,那么传统的调优方法可能会受到挑战。然而,选择使用通用基础模型仍然涉及到多方面的考虑,包括数据隐私、安全性、成本和竞争优势等因素。
金融监管部门提示:谨防“AI换脸”等新型诈骗手段
国家金融监督管理总局北京监管局7日发布风险提示,提醒消费者近期重点防范三种新型欺诈手段,守护家人亲朋财产安全。骗局一:校园贷款连环套,又欠钱来又被骗站长网2023-10-09 10:41:040000Astra Starter Templates 集成 ZipWP AI 网站生成器,能在 60 秒内创建整个网站
站长之家(ChinaZ.com)12月12日消息:BrainstormForce的AstraStarterTemplates,一款拥有超过一百万活跃安装量的网站模板,宣布整合ZipWPAI网站构建器,使用户能够创建整个网站,包括内容和图像。0000张元英转圈很难吗,我用AI轻松硬控网友30秒
学会张元英转圈,硬控网友30秒。这张动图你反复观看了多少遍?女爱豆迈着轻盈的步子,一边扭胯一边转圈,给观众留下完美性感的背影。近期火爆互联网的“张元英转圈”,想必不少玩家都有见识。这个不经意间的动作,吸引了大量网友的挑战模仿。图片来源网络,话题#挑战张元英转圈#曾登上抖音热榜据新榜旗下数据工具新抖显示,#转圈挑战#在抖音平台参与人数超4万,累计播放数近22亿。图片来源新抖数据工具站长网2024-04-19 09:26:520002支付宝全面开放小程序备案服务入口 加速推进备案工作
11月22日消息,支付宝今日发布消息称,为进一步落实《关于开展移动互联网应用程序备案工作的通知》相关要求,强化做好移动互联网信息服务管理,结合前期平台公告和试点开放情况,支付宝平台自2023年11月22日起,全面开放小程序ICP备案入口,为小程序开发者和商家提供代备案服务。自2023年11月22日起,小程序开发者和商家可登录支付宝开放平台或商家平台即可提交备案。对新上架的小程序,也需同步完成备案。0000AI仅凭听患者说话就能检测糖尿病 准确率近90%
划重点:-通过AI仅仅听取患者说话6-10秒就能检测2型糖尿病。-研究显示在女性中的准确率为89%,男性为86%。-通过声音技术可以彻底改变糖尿病的筛查方式。最新医学研究表明,人工智能可以通过仅仅听取患者说话6-10秒的声音来检测2型糖尿病。这一突破性研究由KlickLabs进行,结果显示在女性中的准确率达到89%,而在男性中为86%。站长网2023-10-19 11:44:000000