微软研究人员推新AI方法,用合成数据改进高质量文本嵌入
站长网2024-01-04 15:31:430阅
划重点:
🔍 研究人员提出了一种简单而新颖的方法,只使用合成数据就能获得高质量的文本嵌入
🔍 这种方法在文本嵌入领域取得了显著的成果,无需使用大量标记数据
🔍 使用专有的大型语言模型生成合成数据,取得了优异的性能并创造了新的记录
微软公司的研究团队最近提出了一种独特且简单的方法,用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤(少于1,000步),就取得了令人瞩目的成果。相比于现有的方法,该方法不依赖于多阶段的预训练和有限的标记数据微调,避免了繁琐的训练流程和手动收集数据集的问题,这些数据集通常在任务多样性和语言覆盖方面存在问题。
该方法利用专有的大型语言模型在约100种语言的文本嵌入任务中生成了各种合成数据。与复杂的预训练阶段不同,该方法使用基本的对比损失函数,将开源的仅解码的大型语言模型在生成的合成数据上进行微调。
研究团队进行了一些测试以验证该方法的有效性。该模型在激烈竞争的文本嵌入基准测试中展现了出色的结果,而无需使用任何标记数据。当使用合成数据和标记数据的组合进行改进时,该模型在 BEIR 和 MTEB 基准测试上取得了新的记录,成为了文本嵌入领域的最先进方法。
专利的大型语言模型如 GPT-4被用来生成包括多语言指令在内的各种合成数据。通过利用 Mistral 模型强大的语言理解能力,该方法在几乎所有工作类别上在激烈竞争的 MTEB 基准测试中取得了出色的性能。
该研究表明使用大型语言模型可以显著提高文本嵌入的质量。该研究的训练过程极大地减少了对中间预训练的需求,相较于当前的多阶段系统,更加简洁高效。
论文网址:https://arxiv.org/abs/2401.00368
0000
评论列表
共(0)条相关推荐
这四种最理想的私域组织形态,你会选择哪一种?
今天企业规模在50-500人之间,但有强烈成长欲望和成长性,有意愿通过系统、软件、工具、数字化提升自己的组织效率和服务客户的价值,私域对这类中小企业很有帮助。在企业推进私域的过程中会遇到许多难题和障碍,如多个小程序团队之间、线上线下之间、总部和经销商之间存在原生壁垒,这是私域发展过程中,企业难免会遇到的部门竖井。站长网2023-07-02 18:04:320000关于短剧不能说的秘密
“对基本问题研究得不深不透、得不到可靠的分析框架支持的情况下,仓促采取就事论事的应对措施,由于未能触及事情的根本,往往非但不能获得预期的效果,相反可能引发新的矛盾。”——吴敬琏对基本问题研究透彻,才能看清现象的本质,一夜之间铺天盖地都是关于短剧的讨论和报道,甚至创业者们都在调侃,经济不景气的当下,创业的风口关键词:短剧、出海和Ai。0000一加 Ace3正式发布:售价2599元起 搭载骁龙 8 Gen 2
一加Ace3今日正式发布,搭载骁龙8Gen2处理器,售价2599元起。提供鸣沙金、星辰黑、月海蓝三种配色供用户选择。具体为:12GB256GB版本2599元16GB512GB版本2999元16GB1TB版本3499元站长网2024-01-04 16:32:220000速度快一倍!Stable Diffusion WebUI Forge 性能强大 显卡差也不怕了
StableDiffusionWebUIForge是一个建立在稳定扩散WebUI之上的平台,旨在为用户提供更快速、更高效的深度学习模型部署与推断体验。通过与原始WebUI相比,Forge能够实现显著的推断速度提升,优化GPU资源管理,并支持更大规模的扩散与批处理。站长网2024-02-20 11:24:440003极氪007交付已达10000台 仅用时67天
站长之家(ChinaZ.com)3月7日消息:近日,极氪智能科技宣布其首款纯电轿车极氪007交付量已达到惊人的10000台,仅用时67天,这一成绩再次彰显了极氪汽车的“极氪速度”,打破了量产破万的最快记录。作为极氪的得力之作,极氪007自去年年底上市以来,凭借其出色的性能和合理的售价,赢得了市场的广泛认可。该车共推出5款车型,售价区间为20.99万元至29.99万元,并于今年元旦开启全国交付。站长网2024-03-07 18:01:060000