微软研究人员推新AI方法,用合成数据改进高质量文本嵌入
站长网2024-01-04 15:31:430阅
划重点:
🔍 研究人员提出了一种简单而新颖的方法,只使用合成数据就能获得高质量的文本嵌入
🔍 这种方法在文本嵌入领域取得了显著的成果,无需使用大量标记数据
🔍 使用专有的大型语言模型生成合成数据,取得了优异的性能并创造了新的记录
微软公司的研究团队最近提出了一种独特且简单的方法,用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤(少于1,000步),就取得了令人瞩目的成果。相比于现有的方法,该方法不依赖于多阶段的预训练和有限的标记数据微调,避免了繁琐的训练流程和手动收集数据集的问题,这些数据集通常在任务多样性和语言覆盖方面存在问题。

该方法利用专有的大型语言模型在约100种语言的文本嵌入任务中生成了各种合成数据。与复杂的预训练阶段不同,该方法使用基本的对比损失函数,将开源的仅解码的大型语言模型在生成的合成数据上进行微调。
研究团队进行了一些测试以验证该方法的有效性。该模型在激烈竞争的文本嵌入基准测试中展现了出色的结果,而无需使用任何标记数据。当使用合成数据和标记数据的组合进行改进时,该模型在 BEIR 和 MTEB 基准测试上取得了新的记录,成为了文本嵌入领域的最先进方法。
专利的大型语言模型如 GPT-4被用来生成包括多语言指令在内的各种合成数据。通过利用 Mistral 模型强大的语言理解能力,该方法在几乎所有工作类别上在激烈竞争的 MTEB 基准测试中取得了出色的性能。
该研究表明使用大型语言模型可以显著提高文本嵌入的质量。该研究的训练过程极大地减少了对中间预训练的需求,相较于当前的多阶段系统,更加简洁高效。
论文网址:https://arxiv.org/abs/2401.00368
0000
评论列表
共(0)条相关推荐
iPhone15 Pro多机型破发 华强北商户:第三方最低比官网便宜1500元
快科技10月8日消息,自9月22日首发以来,iPhone15系列手机在发售的两周里,多款机型在第三方渠道的价格持续下滑。据华强北的一位渠道商表示,iPhone15Pro与15ProMax的许多机型已经比官网的价格低,最低的价格比官网便宜近1500元。0000三花智控:人工智能是未来发展的方向,机器换人终将实现
三花智控在最新披露的投资者关系活动记录表中表示,人工智能是未来发展的方向,机器换人终将实现。公司已对机器人机电执行器领域展开持续研究和产品开发工作,已与多个客户建立合作并具备先发优势,未来可期。0000OpenAI 遭遇离职潮:员工对 ChatGPT 进展缓慢失望,痛批 CEO 不务正业
ChatGPT让世界认识到了人工智能带来的无限可能,也让其背后的公司OpenAI走到了聚光灯下。这款聊天机器人成功地将OpenAI的估值从最初的2.6亿美元推高至近300亿美元。然而,这种对ChatGPT的推动似乎疏远了该公司的许多员工,因为他们现在正在离开去寻找更好的工作机会。站长网2023-07-16 18:48:540000AI日报:速度快6倍!Flux 1.1 Pro发布;Pika 1.5 “充气”视频火了;腾讯智影上线AI修图神器;视频生成王炸Movie Gen登场
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、速度提升六倍!黑森林实验室发布Flux1.1Pro:速度与画质双重升级!站长网2024-10-10 10:02:540000罗永浩:“真还传”共还了8.24亿 将采取多种方式增加收入
站长之家(ChinaZ.com)8月26日消息:罗永浩在其微博账号@罗永浩・钮祜禄上发表文章《“真还传”第二季——从6亿到13亿》,透露自己已经偿还了8.24亿元债务,这一数字超出了之前公布的6亿多元欠款。站长网2024-08-27 18:00:310000