复旦大学团队发布中文医疗健康个人助手DISC-MedLLM 单轮问答和多轮对话均表现亮眼
复旦大学数据智能与社会计算实验室(FudanDISC)发布了中文医疗健康个人助手DISC-MedLLM。该模型在单轮问答和多轮对话的医疗健康咨询评测中表现出色,相比已有医学对话模型具有明显优势。课题组同时公开了包含47万高质量监督微调样本的DISC-Med-SFT数据集,以及模型参数和技术报告。
DISC-MedLLM的三大特点:
1)可靠丰富的专业知识,基于医学知识图谱采样获得;
2)多轮对话的问询能力,基于真实咨询对话重建;
3)对齐人类偏好的回复,通过筛选生成高质量小样本指导模型。DISC-Med-SFT数据集利用通用大模型的语言能力,围绕这三个方面进行针对性强化。
主页地址:https://med.fudan-disc.com
Github 地址:https://github.com/FudanDISC/DISC-MedLLM
技术报告:https://arxiv.org/abs/2308.14346
研究团队采用两阶段训练方法。第一阶段使用MedDialog、cMedQA2等数据集进行监督微调,同时加入通用数据集增强语言表达能力。第二阶段使用行为偏好小样本数据集进行微调,进一步提高模型表现。
在单轮问答评测中,DISC-MedLLM在零样本设置下表现强劲,在小样本设置下仅次于GPT-3.5,优于专业医学问答模型HuatuoGPT。在多轮对话评测中,研究团队采用多种策略构建高质量的DISC-Med-SFT数据集:
1)重构AI医患对话。从MedDialog和cMedQA2中抽取样本,使用GPT-3.5重构对话,调整回复风格使其符合AI助手。
2)知识图谱问答。基于医学知识图谱CMeKG进行三元组采样,生成专业医学问答样本。
3)行为偏好样本。人工筛选MedDialog和cMedQA2中的高质量样本,使用GPT-3.5生成符合人类行为偏好的样本。
4)通用数据。加入通用数据集样本,增强模型基础语言能力。
5)问答样本。使用英文医学问答数据集生成中文医学问答样本。
研究人员计算真实咨询分布,以此指导样本构造,并利用回路和人在回路两种思路生成样本,使数据集质量和多样性显著提高。
DISC-MedLLM弥补了现有模型在医疗知识、对话技能和人类偏好方面的不足,展示了构建高质量领域特定数据集以及数据集驱动方法培训专业对话模型的有效性。
OpenAI与第三方机构合作,构建新的AI训练数据集
**划重点:**-🤖OpenAI启动DataPartnerships计划,与第三方机构合作,创建用于AI模型训练的公共和私有数据集。-📚OpenAI寻求多领域、多语言、多格式的数据,以提高AI模型的广泛理解。-💼尽管有商业动机,OpenAI的DataPartnerships计划也引发了关于数据拥有者权益和透明度的讨论。站长网2023-11-10 11:43:320000抖音、小红书掘金PC市场
流量红利见顶后,互联网大厂将目光投向了被冷落已久的PC市场。从之前抖音、快手发布的用户使用峰值可以看出,中午12点,晚19-21点是用户使用的高峰期。在此外的上班时间中,两大App的流量则较为平缓,不过随着存量时代到来,各大App已经将这一时间段视为新增长点。当代年轻人的工作方式也为这些陷入流量焦虑的互联网大厂提供了机会。站长网2023-05-29 15:03:440000英伟达正考虑将其部分人工智能 GPU 外包给三星电子制造
据报道,英伟达正考虑将其部分人工智能GPU外包给三星电子进行制造,因为台积电供应能力日益紧张。行业观察人士指出,如果三星的3纳米试验产品通过性能验证,并且其2.5D先进封装技术符合美国芯片制造商的要求,那么三星有可能从英伟达那里获得一些订单。站长网2023-07-06 16:33:440002OpenAI 的战略重心是 API 调用:正在跨越从「尝鲜者」到「早期大众」的鸿沟
根据网络分析公司Similarweb上周发布的最新数据,6月ChatGPT全球访问量出现了推出以来的首次环比负增长,降幅达9.7%,一度引发市场担心。另一家研究机构BernsteinResearch则加强了这一论点,其发现ChatGPT用户的流失率,即停止使用该服务的用户百分比,飙升至20%左右。站长网2023-07-18 03:16:590000阿里巴巴国际站发布全链路外贸AI产品 包括生意助手、OKKI AI
阿里巴巴国际站推出了全链路外贸AI产品,拥有多项功能,包括智能商品发布与管理、市场分析、客户接待、实时翻译和企业管理等,覆盖了外贸生意的各个环节。据悉,该产品包含生意助手和OKKIAI,阿里国际站商家可以使用AI“生意助手”,而OKKIAI则面向全行业所有商家开放。站长网2023-08-24 23:31:520001