ChatGPT模型在神经学考试中表现出色，超越人类学生水平

站长网2023-12-11 15:36:080阅

### 划重点:

1. 🤖 ChatGPT大语言模型在神经学考试中表现出色，其中一款模型达到85%的准确率，超过人类神经学生平均水平。

2. 📚 通过评估两个ChatGPT大语言模型（LLMs）在美国精神病学和神经病学委员会题库的问题上的表现，研究人员发现，其中一个模型在考试中显著优于人类平均分(85%对73.8%)，成功通过通常难以通过的入学考试。

3. 🏥 近期计算能力的提升和“更智能”人工智能模型的发展使得这些深度学习算法在临床神经学中得到广泛应用，从神经学诊断到治疗和预后等方面都有潜力。

近期发表在JAMA Network Open期刊的一项研究中，研究人员评估了两个ChatGPT大型语言模型（LLMs）在回答美国精神病学和神经学委员会问题库的问题时的表现。他们比较了这两个模型在低阶和高阶问题上的结果与人类神经学生的表现。研究发现，其中一个模型在问题纸上显著优于人类平均分数(85%对73.8%)，从而通过了通常难以通过的入学考试。这些发现突显了LLMs的最新进展，并展示了它们如何在进行轻微调整后，成为临床神经学应用的关键资源。

图源备注:图片由AI生成，图片授权服务商Midjourney

随着计算能力的提升和"更智能"的AI模型的发展，机器学习（ML）和其他人工智能(AI)算法越来越多地被应用于以前仅限于人类的领域，包括医学、军事、教育和科学研究。最近，基于变压器的AI架构——在45TB或更多数据集上训练的AI算法——正在辅助甚至取代传统上由人类执行的角色，包括神经学。庞大的训练数据量，加上不断改进的代码，使这些模型能够呈现逻辑和准确的响应、建议和预测。ChatGPT平台上基于的两个主要算法目前已经开发——LLM1(ChatGPT版本3.5)和LLM2(ChatGPT4)。前者在计算上要求较低，数据处理速度更快，而后者在语境上更准确。

尽管非正式的证据有利于这些模型的实用性，但它们的性能和准确性在科学环境中很少得到测试。有限的现有证据来自对LLM1在美国医学许可考试（USMLE）和眼科学考试中表现的研究，而LLM2版本迄今尚未经过验证。

研究细节:

在这项研究中，研究人员旨在比较LLM1和2在类似委员会书面考试中与人类神经学生的表现。这项横断面研究符合流行病学观察研究加强（STROBE）指南，并将神经学委员会考试作为LLM1和2在高度技术性的人类医学考试中的表现的代理。研究使用了来自美国精神病学和神经学委员会(ABPN)问题库的问题。该库包含2，036个问题，其中80个由于基于视频或图像而被排除。LLM1和LLM2分别来自服务器包含的在线源(ChatGPT3.5和4)，并在2021年9月之前进行了训练。人类比较使用了以前版本的ABPN委员会入学考试的实际数据。

测试过程:

在评估过程中，预训练模型LLM1和2无法访问在线资源来验证或改进它们的答案。在模型测试之前，没有进行神经学特定的模型调整或微调。测试过程包括将模型提交给1，956个多项选择题，每个问题有一个正确答案，三到五个干扰项。根据学习和评估的布鲁姆分类法，所有问题被分类为低阶（基本理解和记忆）和高阶(应用、分析或评估思考为基础)的问题。

性能评估:

评估标准将70%或更高的得分视为考试的最低及格分数。通过50个独立查询测试模型的答案可再现性，这些查询旨在探究自洽性原则。

统计分析:

统计分析包括对模型性能和先前人类结果之间的单变量、顺序特定比较，使用卡方（χ2）检验(对于26个确定的问题子组进行Bonferroni校正)。

研究结果:

LLM2在所有测试组中表现最佳，获得了85.0%的分数（1956个问题中1662个回答正确）。相比之下，LLM1的分数为66.8%，人类平均为73.8%。模型在低阶问题中的表现最高(分别为1和2的模型分别为71.6%和88.5%)。

在这项研究中，研究人员评估了两个ChatGPT LLMs在神经学委员会考试中的表现。他们发现后期模型在低阶和高阶问题上显著优于前期模型和人类神经学生。尽管在记忆类问题方面表现更强大，但这些结果突显了这些模型在辅助甚至替代人类医学专家在非关键任务中的潜力。

值得注意的是，这些模型没有针对神经学目的进行调整，也没有允许它们访问不断更新的在线资源，这两者都可能进一步提高它们与人类创作者之间的性能差距。

ChatGPT模型在神经学考试中表现出色超越人类学生水平

0000

评论列表

共(0)条

相关推荐

站长资讯
米粉期待值拉满！雷军重回小米手机发布会
快科技7月10日消息，小米产品经理魏思琪与米粉互动时确认，本月小米MIXFold4和小米MIXFlip发布会由雷军主持。在评论区，米粉纷纷表示期待。此前在2月份，小米14Ultra发布会由卢伟冰主持，当时雷军将更多精力放在了小米汽车业务上。雷军还强调，手机业务始终是小米的核心业务，他会持续保持足够的精力投入。
站长网2024-07-11 09:24:56
0000
独立开发变现周刊（第154期）：月收入2.5万美金社交媒体主页工具
目录1、Guidejar:创建产品指南和演示工具2、FreeAPI:开源的APIs项目3、【粉丝自荐】Biofy-定制化个人主页4、Noteforms:通过Notion创建表单的工具月收入3万美金5、一个月入2.5万美金的链接工具1、Guidejar:创建产品指南和演示工具通过交互式、易于跟随的AI驱动指南和演示，简化复杂流程。这个产品月收入2千美金。其主要功能包括:
站长网站长资讯2024-10-25 16:58:34
0000
站长资讯
当保险销售开始做博主，收入能翻番，但成功率不足2%？
在雷军靠个人IP给汽车行业带来极大震撼后，越来越多行业开始思考:个人IP能为业务带来新可能吗?短视频、直播能带来更多曝光、客户和变现吗?这一点，在保险行业体现得尤为明显。相比早年的线下拜访，越来越多保险人选择走到镜头前，用短视频、直播的方式和客户沟通。据新榜旗下数据工具新抖统计，用关键词“保险”搜索，万粉以上的抖音账号至少有2594个。
站长网2024-11-17 11:54:21
0000
站长资讯
避免升级出现问题：微软建议用户买新电脑安装Win 11
快科技10月7日消息，微软公司近期更新了其官方支持文档，并指出，想要升级至Windows11，最推荐的方法是购买一台全新的电脑。据了解，Windows10的支持期限为2025年10月14日，在该日期之后，微软将不再为Windows10提供安全更新和技术支持。但微软也说明，即便支持结束，用户的电脑仍然可以正常工作。
站长网2024-10-10 10:03:00
0000
站长资讯
撕掉“直男天堂”标签圈粉女性，迪卡侬是如何逆袭的？
过去，迪卡侬总被称之为“直男天堂”，店内清一色的“黑白灰”色衣服，充斥着浓浓工业风的装修风格，粗糙的商品货架，都与“都市丽人”毫不沾边。最近，迪卡侬的社交热度有所上涨，其中“迪卡侬女孩”“迪卡侬穿搭”等话题引起广泛讨论。而在小红书上，有关迪卡侬的笔记数量达到了10万，各种穿搭以及探店内容层出不穷。从最初的“直男天堂”到如今成功圈粉年轻女性群体，迪卡侬是如何逆袭的?
站长网2023-08-31 18:18:05
0001