新型多模态表示学习方法FACTORCL
要点:
FACTORCL是一种新的多模态表示学习方法,旨在解决对比学习在低共享或高独特信息情境中无法收集任务相关信息的问题。
该方法通过因子化任务相关信息为共享和独特信息,并通过最大化互信息下界获取任务相关信息,最小化互信息上界提取任务不相关信息,实现了对任务相关信息的优化学习。
FACTORCL采用多模态增强来评估任务相关信息,使得在自监督情景中实现了任务相关性的建立,无需显式标记。
最近,研究人员推出了一种名为FACTORCL的新型多模态表示学习方法,以解决对比学习在复杂多模态背景下的局限性。现有的多模态预训练技术主要基于多视图学习,利用多视图冗余的关键前提,即通过模态间的信息交换几乎完全与随后的任务相关。
项目地址:https://github.com/pliang279/FactorCL
对比学习在真实世界中更广泛的多模态背景下存在的两个关键限制:
1. 在许多任务中存在较少的任务相关信息,使得传统多模态对比学习难以获得所需的任务相关信息。
2. 多个模态可能提供不同的任务相关信息,传统对比学习会忽略这些独特的信息,导致性能下降。为了克服这些限制,研究人员引入了FACTORCL方法,通过明确因子化共享和独特的表示,以获得适当和必要的信息内容。
该方法通过最大化互信息下界和最小化互信息上界,独立优化共享和独特信息,从而实现了对任务相关信息的最优表示。另外,FACTORCL利用多模态增强在自监督场景中估计任务相关信息,无需显式标记,提高了学习效果。在实验证明,FACTORCL在多个数据集上实现了新的最先进性能。
FACTORCL方法的基本原理,包括明确因子化共享和独特的表示,以及通过最大化互信息下界和最小化互信息上界来优化共享和独特信息的学习。
研究人员使用FACTORCL在合成数据集和真实世界多模态基准测试中进行的实验证明,包括情感、情绪、幽默、讽刺等方面的预测,以及在六个数据集上达到的最先进性能。
曝华为三折叠屏手机两个月内发布:国产顶级技术创新 价高量少
快科技7月15日消息,据博主定焦数码”爆料,全球首款三折叠屏手机将在两个月时间内发布。结合此前消息,华为将全球首发三折叠屏手机,也就是10月份之前就能见到华为三折旗舰了,而且发售时间刚好与iPhone16系列重合,带来顶级国产与国际巨头的碰撞。不同的是,华为三折代表着遥遥领先的国产创新技术,而iPhone16系列依然是挤牙膏产品,甚至标准版依然是售价超5000元的60Hz低刷屏。站长网2024-07-15 10:10:370000男子打车8公里被收229元 还跨楼越湖了!滴滴回应:司机用了作弊器
快科技7月20日消息,据报道,一男子在上海打网约车乘坐了8公里,结果订单却显示去了趟苏州,且车费花了两百多元。据当事人张先生介绍,他当时打车地在上海,路程只有8公里左右,预估费用不到30元,但令他没想到的是,订单结束后,打车费用229.66元,且自己打车打到了苏州。滴滴系统订单显示,其行程途经江苏省苏州市吴江区,来回直线距离超过160公里,且路线横穿公路湖泊和建筑物,明显异常。站长网2024-07-21 02:58:420000英伟达 2024 财年第四季度营收 221 亿美元 同比增长265%
英伟达公布了截至2024年1月28日的2024财年第四季度财报,显示公司营收达到了221亿美元,同比增长了惊人的265%,环比增长22%。这一表现超过了分析师预期的204.1亿美元。站长网2024-02-22 08:36:590000科大讯飞:讯飞星火Lite API永久免费开放
科大讯飞宣布,讯飞星火API能力正式免费开放。讯飞星火LiteAPI将永久免费开放,而Pro/MaxAPI的调用费用更是低至0.21元/万tokens。值得一提的是,在讯飞星火中,1token相当于1.5个中文汉字,这意味着仅需2.1元,开发者便能调用“讯飞星火3.5Max”生成一部余华《活着》的内容量。这样的价格体系无疑将大大降低开发者的调用成本,驱动产品创新验证,解决真实世界的刚需。站长网2024-05-22 19:53:450000联发科与快手推出端侧视频生成技术 基于天玑9300与I2V Adapter打造
MediaTek与快手联合推出了一项高效端侧视频生成技术,旨在推动生成式AI技术的革新。这项技术首次在2024年世界移动通信大会上展示,并结合了快手的AI模型I2VAdapter和MediaTek天玑9300、天玑8300移动平台的AI算力,实现了从静态图像到动态视频的生成。用户可以在设备上选择图片,应用会智能识别图片中的人物和场景,并生成流畅的视频,提高视频制作的创意和效率。站长网2024-07-05 16:26:290000