听10秒语音就能判断糖尿病,这个AI大模型太硬核了!
加拿大的Klick科研人员在顶级健康杂志《梅奥诊所文集:数字健康》上发布了一个AI大模型,只需要听一段6—10秒的语音,就能诊断是否患有2型糖尿病(T2DM)。
目前糖尿病的主要检测方式依赖于血糖测量,但这种方法需要获取血液样本对患者会造成创伤,同时还需要专业设备成本非常高。为了解决这一检测痛点,加拿大知名健康科技公司Klick科研人员提出了AI模型检测方法。
研究人员收集了267名志愿者的语音样本,然后通过AI模型了进行了详细检测,结果显示,AI准确地识别出了2型糖尿病,其中,女性准确率89%,男性准确率86%。还发现,“音调”和“音调标准差”是诊断2型糖尿病的主要特征之一。
这个研究与前段时间Meta提出的使用MEG(脑磁图)重构人类大脑成像过程类似,都是借助人类的生物体特征,来观察其抖动数据变化确定结果。
论文地址:https://www.mcpdigitalhealth.org/article/S2949-7612(23)00073-1/fulltext

构建数据集
研究人员共招募了267名自愿者,其中79名女性和113名男性是非糖尿病患者,18名女性和57名男性被诊断为2型糖尿病患者。
参与者的糖尿病诊断是基于美国糖尿病学会的诊断标准,由医生确认。同时没有神经系统或语言障碍史,也没有吸烟历史。

参与者使用智能手机应用程序录制固定语句“你好,你好吗?我现在的血糖水平是多少”,录制时间为2周,每天最多6次,总共收集了18,465段语音样本。
数据分割,提取特征
由于年龄和体重指数等因素会对语音数据产生影响,研究人员根据参与者ID将数据分割成年龄和体重指数匹配的数据集,用于模型训练和统计分析,这有助于AI模型能够学习到糖尿病语音的真实变化。
训练集占所有2型糖尿病患者的50%男性和61%女性。剩余数据作为测试集,用于测试训练好的AI模型。
接着研究人员从每个语音样本中提取了14个声学特征,包括音高、音强、谐波噪声比、声响、声抖等。特徵提取使用的是Parselmouth,这是Praat语音分析软件的Python接口。
可从原始语音信号中提取能反映语音变化的数值特征,为后续的模型训练和预测提供输入。
选择模型
考虑到相关工作中使用的模型,研究人员选择了逻辑回归、朴素贝叶斯和支持向量机等模型。通过5折交叉验证在训练集上评估了这些模型的性能,从而找到最佳模型。

对女性而言,含3个特征的逻辑回归模型效果最好;男性,含2个特征的朴素贝叶斯模型效果最好。
逻辑回归模型可以估计不同特征对结果的贡献程度;朴素贝叶斯模型在小样本场景下效果较好。然后使用最佳模型,在构建的训练集上进行预训练。
模型测试数据
使用训练好的AI模型对测试集的数据进行预测,得到每个样本属于2型糖尿病的概率。根据预先确定的概率阈值,将样本预测为2型糖尿病或非糖尿病。
同时使用测试集的数据计算模型的精确度、敏感度和特异度等评价指标,还可以绘制ROC曲线等来全面的评估模型的预测性能。

此外,研究人员还将年龄、体重指数等信息融合到预测结果中,可以提高模型的准确度。
例如,对女性平均语音预测结果和体重指数患病率,对男性平均语音结果与年龄、体重指数患病率。这种集成模块通过组合多个信息源,可以弥补单一模型的缺陷,增强模型的预测能力。
测试结果显示,对女性,语音结果与体重指数的2型糖尿病患病率相结合,在测试集上达到了0.89的准确率、0.91的特异度和0.71的敏感度。
对男性,语音结果与年龄和体重指数的2型糖尿病患病率相结合,在测试集上达到了0.86的准确率、0.89的特异度和0.75的敏感度。
研究负责人Jaycee Kaufman表示,我们在研究过程中确定了2型糖尿病患者语音的变化, 这对于AI大模型检测、筛选2型糖尿病有非常高的应用价值。
语音评估的方法有助于2型糖尿病的早期干预和管理,同时减轻疾病的负担改善医疗效果。
关于Klick Health
Klick成立于1997年,总部位于加拿大多伦多,是全球领先的健康营销公司。Klick Health使用数据驱动的方法来开发和实施各种健康和医疗相关的营销策略。
Klick提供一系列服务,包括数字战略、品牌策略、创新与设计、数据洞察、内容开发和技术解决方案等。
关于2型糖尿病
2型糖尿病是一种慢性疾病,主要特征是胰岛素抵抗和胰岛素分泌功能障碍。身体不能有效地使用胰岛素,这种情况被称为胰岛素抵抗。胰岛素是一种荷尔蒙,可以帮助我们的身体将血糖转化为能量。
当胰岛素抵抗发生时,血糖水平开始上升,这可能会导致各种健康问题,包括心脏病、肾病、视力损失和神经损伤。
华为发布AI大模型存储新品OceanStor A310、FusionCube A3000
7月14日,华为发布两款AI大模型存储新品OceanStorA310、FusionCubeA3000。其中,OceanStorA310面向基础/行业大模型数据湖场景,实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理。站长网2023-07-14 16:31:090000“羊了个羊”们熄火,中重度游戏王者归来
不可否认,这两年来,小游戏成为了游戏行业中最亮眼的一个细分领域。无论是《合成大西瓜》,还是今年年初爆火的《羊了个羊》,都将小游戏推向了新的高度。然而,近段时间开始,这种高光再次被中重度游戏所淹没。近3个多月来,包括腾讯游戏、字节游戏、米哈游等,都推出了爆火的中重度游戏,涉及开放世界、射击等领域。0000AI插件诱导注入数据外泄漏洞曝光 攻击者可以将恶意指令注入Google Bard
近期,GoogleBard推出了强大的扩展功能,使其能够访问YouTube、搜索航班和酒店,以及用户的个人文档和电子邮件。然而,这也为潜在的安全漏洞敞开了大门。国外一博主介绍了一种称为间接提示注入的攻击方法,利用这一漏洞,攻击者可以将恶意指令注入GoogleBard,实现数据外泄。站长网2023-11-08 17:02:130005华为云研究团队提出 PanGu-Coder2 模型和 RRTF 框架 提升大模型性能
站长网2023-08-01 09:57:540001Karpathy新教程爆火,网友抢着送他H100:从头复现GPT-2训练
大神Karpathy已经不满足于用C语言造Llama了!他给自己的最新挑战:复现OpenAI经典成果,从基础版GPT-2开始。挑战成功本身并不意外,但是只花费20美元、90分钟完成训练,Loss和评测还超越原版,就!有!点!过!分!了!。不仅如此,他把复现过程写成了完整教程,果不其然再次火爆。由于Karpathy自己租用的是A100云服务,训练124M版本花费20了美元。站长网2024-05-29 18:35:410000