微软研究人员推新AI方法,用合成数据改进高质量文本嵌入
站长网2024-01-04 15:31:430阅
划重点:
🔍 研究人员提出了一种简单而新颖的方法,只使用合成数据就能获得高质量的文本嵌入
🔍 这种方法在文本嵌入领域取得了显著的成果,无需使用大量标记数据
🔍 使用专有的大型语言模型生成合成数据,取得了优异的性能并创造了新的记录
微软公司的研究团队最近提出了一种独特且简单的方法,用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤(少于1,000步),就取得了令人瞩目的成果。相比于现有的方法,该方法不依赖于多阶段的预训练和有限的标记数据微调,避免了繁琐的训练流程和手动收集数据集的问题,这些数据集通常在任务多样性和语言覆盖方面存在问题。
该方法利用专有的大型语言模型在约100种语言的文本嵌入任务中生成了各种合成数据。与复杂的预训练阶段不同,该方法使用基本的对比损失函数,将开源的仅解码的大型语言模型在生成的合成数据上进行微调。
研究团队进行了一些测试以验证该方法的有效性。该模型在激烈竞争的文本嵌入基准测试中展现了出色的结果,而无需使用任何标记数据。当使用合成数据和标记数据的组合进行改进时,该模型在 BEIR 和 MTEB 基准测试上取得了新的记录,成为了文本嵌入领域的最先进方法。
专利的大型语言模型如 GPT-4被用来生成包括多语言指令在内的各种合成数据。通过利用 Mistral 模型强大的语言理解能力,该方法在几乎所有工作类别上在激烈竞争的 MTEB 基准测试中取得了出色的性能。
该研究表明使用大型语言模型可以显著提高文本嵌入的质量。该研究的训练过程极大地减少了对中间预训练的需求,相较于当前的多阶段系统,更加简洁高效。
论文网址:https://arxiv.org/abs/2401.00368
0000
评论列表
共(0)条相关推荐
网友称刘强东数字人少了些感情:吸引超2000万人围观
4月16日,京东直播迎来了新主播“刘强东”,通过数字人的形象在直播间带货。在直播期间,刘强东数字人讲解了13款商品,吸引了超过2000万的观看人数,直播时段用户平均停留时长达到日常平均的5.6倍。整体订单量也取得了显著增长,显示了数字人带货的潜力。尽管刘强东数字人在外貌神态和语音语调上模仿了真人刘强东的习惯,但许多网友仍认为缺少了一些感情,希望真人刘强东能够亲自上播。站长网2024-04-18 16:16:570001Visa启动1亿美元AI创投计划,致力推动生成式AI创新
文章概要:1.Visa公司推出1亿美元生成式AI创投计划,支持新兴公司发展生成式AI技术,改变未来商务和支付系统。2.该计划由VisaVentures监管,重点投资于生成式AI技术领域的初创企业,为行业未来发展提供了重要支持。3.Visa的加入标志着生成式AI技术正迎来巨大的发展机遇,有望彻底改变多个行业,带来前所未有的创新和变革。站长网2023-10-08 10:03:570000OpenAI、Google和Meta 的当红华人研究员们在想些什么|对话实录
座无虚席,过道里也站满了人。甚至你会以为这是一场明星见面会。但这其实是一场在硅谷进行的GenAI大会的其中一个圆桌。它被安排在“副舞台”,时间在人们最昏昏欲睡的中午,另一间大会议室的台上坐着不少硅谷明星公司的CEO和创始人们,而这个圆桌“只是”一些研究员们,但人们依然不停涌入这个小房间。站长网2023-09-25 18:00:460001港大开源图基础大模型OpenGraph 增强图学习泛化能力
香港大学数据智能实验室主任黄超团队开发了一款名为OpenGraph的图基础大模型,专注于在多种图数据集上进行零样本预测。该模型通过学习通用的图结构模式,仅通过前向传播即可对全新数据进行预测,有效缓解了图学习领域的数据饥荒问题。关键特点:强泛化能力:OpenGraph旨在通过图结构模式学习,实现对未见数据的零样本预测。提示调整技术:团队提出的提示调整技术提高了模型对新任务的适应性。站长网2024-05-09 16:45:200000DALL·E 3被兽圈网友玩成“老公模拟器” 网友直呼“犬系男友”真香
最近,小红书博主“Forty_Seven947”以《动物狂想曲》中的狼人雷格西为原型,用DALL·E3画了一系列超写实的狼拟人形象,俘获了一众网友。这些形象非常逼真,让网友们感叹不已。站长网2023-10-25 19:27:290000