注册

首页站长资讯研究：合成字幕对多模态模型训练有用吗？

6096

研究：合成字幕对多模态模型训练有用吗？

站长网2023-07-26 15:05:290阅

多模态模型是人工智能领域的重大进展之一。这些模型可以处理和理解来自多种模态的数据，包括视觉（如图像和视频）、文本(如自然语言)和音频(如语音和声音)。这些模型能够结合和分析来自这些不同模态的数据，执行需要在多种数据类型之间进行理解和推理的复杂任务。

由于大型多模态模型在视觉任务中被广泛使用，因此对这些模型进行图像 - 文本对的预训练已经证明可以在各种与视觉相关的任务上获得高性能。

论文地址:https://arxiv.org/abs/2307.10350

研究人员一直在尝试改善用于视觉任务中的大型多模态模型的网络数据（如图像 - 文本对）的实用性，但由于诸多因素的影响，如图像和文本不匹配、数据源有问题和低质量内容，网络数据经常含有噪音或无信息性。

目前，现有的方法虽然可以降低数据中的噪音，但往往会导致数据多样性的损失。为了解决这个问题，一个研究团队提出了一种关注网页抓取数据中字幕质量的方法。

他们的主要目标是探索生成的字幕如何提高具有模糊或无信息性文本的图像 - 文本对的实用性。为此，研究团队测试了几种混合策略，将原始网站字幕与模型生成的字幕相结合。

这种方法在数据比较基准 DataComp 提供的最佳过滤策略上取得了显著的优势。在拥有1.28亿个图像 - 文本对的候选池中，ImageNet 的改进达到了2%，在38个任务中，平均改进为4%。他们的最佳方法在 Flickr 和 MS-COCO 的检索任务中超过了传统技术，证明了他们的策略在实际应用中的可行性。

研究团队通过测试多个图像字幕模型来探讨人工生成的字幕为文本监督提供了什么样的帮助。团队通过研究发现，模型生成的字幕对于多模态训练的实用性并不总是由其在已建立的图像字幕基准（如 NoCaps CIDEr）上的表现好坏来确定。这凸显了评估生成的字幕的必要性，特别是对于多模态活动，而不仅仅依赖传统的图像字幕基准。

研究使用了 DataComp 的12.8亿个图像 - 文本对的数据集，以研究生成的字幕在更广泛范围内的应用。这个实验揭示了合成文本的局限性，并强调了在扩大训练数据的情况下，图像筛选的重要性的增加。

团队分享的见解包括:

选择一个字幕模型时，对预训练网络进行微调可能不会产生对多模态训练有效的字幕;

多个来源的字幕的组合可以提高在小规模和中规模 DataComp 基准上的性能;

在个体级别上，合成字幕的噪音较少且包含更多视觉信息，但在群体水平上，与原始字幕相比，它们缺乏多样性;

合成字幕的效益的可扩展性因不同的数据规模而异，通过尝试不同的数量，可以突显合成字幕的局限性，图像质量控制和多样性差距在更大的数据范围内变得更加重要。

研究 合成字幕对多模态模型训练有用吗

0000

评论列表

共(0)条

相关推荐

站长资讯
微软宣布为Windows10用户提供付费安全更新计划，支持延长至2028年
站长之家（ChinaZ.com）12月6日消息:微软在最新声明中宣布，将为继续使用Windows10的个人用户提供付费的扩展安全更新（ESU）计划，以延长操作系统的支持周期。当前，Windows10的支持终止日期为2025年10月14日，而微软此举被认为是对广泛使用的Windows10用户的一项惊喜服务。
站长网2023-12-06 09:51:41
0000
站长资讯
2024 QS排名发布：计算机MIT霸榜，清华11，北大15
2024QS世界大学学科排名出炉了!在计算机科学专业排名中，MIT、卡内基梅隆大学、斯坦福大学占领了世界前三席，中国大陆有8所高校进入百强，清华大学排名最高，并列第11。2024QS世界大学学科排名来了!总体和23年变化不大。根据官网信息，2024QS世界大学学科排名涵盖了55个细分学科和5大学术领域。
站长网2024-04-18 21:55:49
0000
站长资讯
清华大学开发出新视觉语言模型可更准确理解 GUI
清华大学智普AI的研究人员开发了一种新的视觉语言模型（VLM），名为CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。CogAgent通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的GUI元素和文本内容，这是有效GUI交互的关键要求。
站长网2023-12-27 15:46:22
0000
站长资讯
时薪仅2美元心灵受重创，肯尼亚工人起诉要求调查OpenAI外包公司
本文概要:1.四名前ChatGPT劳工向肯尼亚政府请愿，要求调查OpenAI合作的内容审核公司Sama。2.前劳工声称在审核过程中遭受剥削和有害待遇，对心理健康造成持久影响。3.员工要求政府制定规定，保护从事有害和危险技术工作的人，并调查外包公司的滥用行为。
站长网2023-08-07 10:53:51
0000
联合国大会通过首个AI相关决议草案：旨在消除数字鸿沟
快科技3月22日消息，据媒体报道，联合国大会投票通过了第一个有关人工智能（AI）的决议草案，以确保这项新技术能够惠及所有国家、尊重人权并且是安全、可靠和值得信赖的”技术。据了解，这项决议草案旨在消除发达国家和发展中国家之间的数字鸿沟，确保它们在人工智能讨论中处于同等地位，还旨在确保发展中国家拥有利用人工智能的技术和能力。
站长网站长资讯2024-03-23 03:46:47
0000

热点

《封神2》崩的越惨，DeepSeek的刀就越锋利。
2025-02-06 18:40:06
iPhone用户警惕！苹果App Store首次发现OCR恶意软件：悄无声息窃取资料
2025-02-07 03:21:16
一周打赏20万，各个品牌为做“榜一大哥”正在疯狂撒钱。
2025-02-06 18:38:10
模型优惠进入倒计时 DeepSeek因服务器暂停API服务充值
2025-02-07 03:18:38
过年三件套平替爆火：商家月入200万，订单“根本发不完”
2025-02-06 01:10:59
小米眼镜官微上线：智能眼镜赛道要爆发
2025-02-07 02:59:11
一个行业的AI样板：教培的不同环节怎么被改写
2025-02-05 23:37:52
这个春节大家都在看什么？哪吒创影史纪录，DeepSeek刷屏全网
2025-02-07 02:48:00
黄仁勋喊话年轻人：学会用AI 才能更出色
2025-02-05 23:36:32
告别5美元包邮，Temu和Shein还是比亚马逊便宜
2025-02-07 02:47:51

关注

小鹏G9/G6正式登陆爱尔兰/芬兰：加速欧洲市场布局
2025-02-04 09:36:20
《哪吒2》登顶，谁赚麻了？
2025-02-07 15:41:39
小米汽车门店已有216家门店：覆盖全国64城
2025-02-04 09:33:18
雷军去小米汽车工厂上班了：确认要进一步提产冲击年销30万辆
2025-02-07 15:06:26
三星Exynos 2500芯片确认于2025年下半年推出：性能不及骁龙8 Elite
2025-02-04 07:34:04
小米眼镜官博上线旗下首款AI眼镜将发布
2025-02-07 10:20:34
DeepSeek创始人老家成热门打卡地：家长带着孩子拍照打卡
2025-02-04 07:31:46
模型优惠进入倒计时 DeepSeek因服务器暂停API服务充值
2025-02-07 03:18:38
硅谷掀桌！DeepSeek遭OpenAI和Anthropic围剿，美国网友都看不下去了
2025-02-02 16:49:29
小米眼镜官微上线：智能眼镜赛道要爆发
2025-02-07 02:59:11

推荐