新型多模态表示学习方法FACTORCL
要点:
FACTORCL是一种新的多模态表示学习方法,旨在解决对比学习在低共享或高独特信息情境中无法收集任务相关信息的问题。
该方法通过因子化任务相关信息为共享和独特信息,并通过最大化互信息下界获取任务相关信息,最小化互信息上界提取任务不相关信息,实现了对任务相关信息的优化学习。
FACTORCL采用多模态增强来评估任务相关信息,使得在自监督情景中实现了任务相关性的建立,无需显式标记。
最近,研究人员推出了一种名为FACTORCL的新型多模态表示学习方法,以解决对比学习在复杂多模态背景下的局限性。现有的多模态预训练技术主要基于多视图学习,利用多视图冗余的关键前提,即通过模态间的信息交换几乎完全与随后的任务相关。
项目地址:https://github.com/pliang279/FactorCL
对比学习在真实世界中更广泛的多模态背景下存在的两个关键限制:
1. 在许多任务中存在较少的任务相关信息,使得传统多模态对比学习难以获得所需的任务相关信息。
2. 多个模态可能提供不同的任务相关信息,传统对比学习会忽略这些独特的信息,导致性能下降。为了克服这些限制,研究人员引入了FACTORCL方法,通过明确因子化共享和独特的表示,以获得适当和必要的信息内容。
该方法通过最大化互信息下界和最小化互信息上界,独立优化共享和独特信息,从而实现了对任务相关信息的最优表示。另外,FACTORCL利用多模态增强在自监督场景中估计任务相关信息,无需显式标记,提高了学习效果。在实验证明,FACTORCL在多个数据集上实现了新的最先进性能。
FACTORCL方法的基本原理,包括明确因子化共享和独特的表示,以及通过最大化互信息下界和最小化互信息上界来优化共享和独特信息的学习。
研究人员使用FACTORCL在合成数据集和真实世界多模态基准测试中进行的实验证明,包括情感、情绪、幽默、讽刺等方面的预测,以及在六个数据集上达到的最先进性能。
称抖音电商珠宝退货率高达90% 一自媒体被抖音起诉
据上游新闻”报道,日前,抖音电商诉自媒体信号财经”名誉权侵权一案,被北京互联网法院正式受理。抖音电商诉请法院,判令被告立即删除侵权文章、刊登道歉声明,并赔偿抖音电商经济损失50万元。报道称,2023年7月14日,北京一点网聚科技有限公司旗下微信公众号信号财经”发布了一篇名为《缩水1万亿!珠宝商退货率90%,抖音正在杀死”商家》的文章。0004GPT-4V都考不过?基于大学水平考试的多模态AI测试基准MMMUs发布
要点:最新基准数据集MMMUs针对大学水平多学科问题提供了全面的多模态AI测试,挑战了当前最强大的GPT-4V等模型,展现了其在深度和广度方面的性能。MMMU包含六个学科的30个科目,涉及艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等领域,共有1.15万个多模态问题,考察了感知、知识和推理等基本技能,为评估专家级AGI提供了全面而复杂的任务。站长网2023-12-01 14:28:560000史上最贵“蹦迪票”!神秘买家8万拍下椰树直播间蹦迪权:1秒单价2698元
直播带货早已成为如今大大小小商家营销的主要方式,面对同质化的直播风格,椰树集团的直播方式熟悉”又新颖。日前,椰树集团入驻淘宝直播,直播首秀前,椰树在淘宝拍卖上上架直播间蹦迪权”,50元起拍,拍中的粉丝就能在直播间和椰树模特团共舞30秒。目前,这张蹦迪票”拍卖结果已经出炉,由一位神秘买家花80930的价格拍下,堪称史上最贵蹦迪票”。站长网2023-06-03 15:40:240000你的下一个浏览器,可以是豆包电脑版!
万万没想到,现在看B站视频的打开方式,竟然可以这么AI了。例如在跟着李沐老师学Llama3.1论文过程中,视频的右上角现在就有了豆包的总结视频功能:点击这个按钮,只需要几秒钟时间,一份针对视频内容的AI精读就完成了。不仅按照训练过程的阶段划分了四大部分,每个部分更是精细到了秒级的程度。随便一点,视频进度条就会自动跳到相关的那部分:不够直观?0000一加Ace 3支持雨水触控 湿手轻松操作手机
一加Ace3即将于1月4日正式发布,一加的李杰表示,一加Ace3将支持一项创新功能——雨水触控。一加Ace3的雨水触控功能不仅解决了一系列生活痛点,还让用户在湿手、雨水等情况下都能轻松操作手机。这种“旦用难回”的体验让一加Ace3成为用户日常生活和工作中的得力助手。0000