马毅团队新研究:微调多模态大模型会灾难性遗忘
站长网2023-09-28 10:29:530阅
要点:
1. 马毅团队提出了EMT框架,评估微调后的多模态大模型(MLLM)的灾难性遗忘。
2. 实验表明,微调MLLM在提升微调数据集性能的同时,也导致其他数据集性能下降。
3. 微调过程中,MLLM会产生与微调数据集相关的幻觉文本,忽略原始问题。
随着GPT-4的发布,多模态大模型(MLLM)成为热点。业界常将视觉编码器与语言模型集成构建MLLM。尽管微调后的MLLM在视觉语言任务上表现强劲,但仍面临灾难性遗忘的问题,即过拟合微调数据集后,在其他任务上的性能下降。
论文地址:https://arxiv.org/pdf/2309.10313.pdf
马毅团队提出了EMT框架,专门评估MLLM的灾难性遗忘。流程是:
1)输入图像;
2)要求MLLM分类;
3)用另一个语言模型评估分类正确性。
结果显示,测试的MLLM大多无法保持与视觉编码器相近的分类性能。
研究还针对LLaVA做了微调实验。证实了适度微调有益,但过度微调会导致非微调任务遗忘。另外,微调后的MLLM会产生与微调数据集相关的幻觉文本,而非原始问题。
本研究首次系统评估了MLLM中的灾难性遗忘问题,为后续工作提供了框架和基准。遗忘问题的产生也启示我们,在追求单任务性能的同时,还需注意保持模型的泛化能力,防止过拟合。模型设计和训练技巧仍需进一步优化,以平衡不同能力之间的权衡。
0000
评论列表
共(0)条相关推荐
小扎老黄亲密换衣炉边对谈!小扎竟破防爆粗,老黄自曝第一批Blackwell已出炉
【新智元导读】就在刚刚,老黄在SIGGRAPH大会上透露:Blackwell的工程样片,已在本周正式向全世界发送!随后,老黄和小扎展开了炉边对话,并且亲密换衣,说到激动处,小扎气得一度爆粗。惊爆消息来了!刚刚,老黄在SIGGRAPH计算机图形会议上透露:就在本周,英伟达已经开始向全世界发送Blackwell的工程样片了!站长网2024-07-30 14:39:090000比微博大 V 更会蹭热度的,可能是低调的网文作者们。
朋友们,你还记得姜萍吗?关于她的故事,前段时间在网络上十分流行,感兴趣的可以搜搜看。今天我们要聊的是姜萍,却又不是姜萍。因为你们根本想不到我是在哪把这热点被动追完的,不是微博、也不是抖音。。。而是:起点中文网。短文短视频博主们追热点可太常见了,毕竟这一行讲究的就是效率,大家都门清。但现在我却发现,在网文这种动辄几百万字的长篇小说圈子里,作者们追热点的姿势,早就已经超进化了。站长网2024-07-18 11:44:480000百度智能云千帆大模型平台推出千帆SDK开源版本
百度智能云千帆大模型平台再次升级,推出千帆SDK,全面开源并免费下载使用。该SDK提供了从数据集管理、模型训练、模型评估到服务部署等一系列功能,用户可以通过代码接入并调用百度智能云千帆大模型平台的能力,轻松实现LLMOps全流程的落地,快速构建自己的大语言模型应用。SDK的优势在于快速使用API能力、提供实践案例和应用场景的cookbook、拓展了LLM应用的基础能力。站长网2023-11-08 08:36:0600005G必要专利全球!网友分享华为5G工程测试手机 早开始实测
快科技5月1日消息,之前一直有消息称,华为在准备5G手机,而现在又有网友分享了相关消息。现在,有网友分享了华为5G工程测试机,之前早已在深圳开始实测了,至于何时推出还不清楚,最快可能是年底。按照博主的说法,华为工程机确实都有5G,能不能走到量产才是关键。站长网2023-05-12 20:43:140000汤姆猫:AI产品已初步实现情境对话、AI识物、AI绘图等功能
汤姆猫近日表示,在人工智能上,公司关注到ChatGPT相关技术的应用后,借助国内外的通识大模型,公司致力于将“会说话的汤姆猫”迭代为“会聊天的汤姆猫”。截至目前,公司国内研发团队打造的AI产品已初步实现情境对话、英语口语启蒙、AI识物、AI绘图等功能。站长网2023-07-25 12:20:430000