微软研究人员推新AI方法,用合成数据改进高质量文本嵌入
站长网2024-01-04 15:31:430阅
划重点:
🔍 研究人员提出了一种简单而新颖的方法,只使用合成数据就能获得高质量的文本嵌入
🔍 这种方法在文本嵌入领域取得了显著的成果,无需使用大量标记数据
🔍 使用专有的大型语言模型生成合成数据,取得了优异的性能并创造了新的记录
微软公司的研究团队最近提出了一种独特且简单的方法,用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤(少于1,000步),就取得了令人瞩目的成果。相比于现有的方法,该方法不依赖于多阶段的预训练和有限的标记数据微调,避免了繁琐的训练流程和手动收集数据集的问题,这些数据集通常在任务多样性和语言覆盖方面存在问题。

该方法利用专有的大型语言模型在约100种语言的文本嵌入任务中生成了各种合成数据。与复杂的预训练阶段不同,该方法使用基本的对比损失函数,将开源的仅解码的大型语言模型在生成的合成数据上进行微调。
研究团队进行了一些测试以验证该方法的有效性。该模型在激烈竞争的文本嵌入基准测试中展现了出色的结果,而无需使用任何标记数据。当使用合成数据和标记数据的组合进行改进时,该模型在 BEIR 和 MTEB 基准测试上取得了新的记录,成为了文本嵌入领域的最先进方法。
专利的大型语言模型如 GPT-4被用来生成包括多语言指令在内的各种合成数据。通过利用 Mistral 模型强大的语言理解能力,该方法在几乎所有工作类别上在激烈竞争的 MTEB 基准测试中取得了出色的性能。
该研究表明使用大型语言模型可以显著提高文本嵌入的质量。该研究的训练过程极大地减少了对中间预训练的需求,相较于当前的多阶段系统,更加简洁高效。
论文网址:https://arxiv.org/abs/2401.00368
0000
评论列表
共(0)条相关推荐
理想汽车发布2023年Q4财报:全年营收1238亿元 同比增长173.5%
理想汽车近日发布了其2023年第四季度及全年的财报。报告显示,理想汽车凭借规模的扩大和经营效率的持续提升,在报告期内取得了历史性的财务成绩。全年实现营收1238.5亿元,同比增长173.5%,成为中国第一家年营收突破千亿元的新势力车企。同时,全年交付量达到376,030辆,同比增长182.2%,在中国造车新势力中位居第一。站长网2024-02-26 17:36:540000百度:AIGC创新是颠覆式的 我们要做超前点播
快科技5月25日消息,AI人工智能技术最近成为热点,各大科技厂商都下场搞自己的AI大模型,百度也推出了文心一言对决ChatGPT这样的AI应用,百度高管表示AIGC(生成式人工智能)带来的创新将是颠覆式的。站长网2023-05-25 10:58:070000Infosys 宣布终止价值 15 亿美元的全球客户人工智能技术合同
Infosys于当地时间周六宣布,该公司在9月份宣布的一项价值15亿美元的全球客户AI合同已被终止。然而,Infosys未透露客户的细节和终止原因。这是Infosys迄今为止宣布的最大一笔AI交易。图片来自Infosys站长网2023-12-26 09:07:290001对标iPhone 16!华为Mate 70主摄曝光:全系标配国产传感器
快科技4月22日消息,根据数码闲聊站的爆料,华为Mate70系列的主摄将全系采用豪威传感器,标准版将配备OV50H主摄,而高配版将搭载OV50K主摄。OV50K是豪威今年量产商用的一颗全新传感器,拥有1/1.3英寸大底,最大的亮点是支持LOFIC技术。站长网2024-04-22 15:10:290000Windows 11 新增基于AI的复制和粘贴功能
划重点:⭐微软在Windows11中引入了新的高级粘贴功能,利用AI技术实现剪贴板内容的即时转换。⭐通过PowerToys的AdvancedPaste功能,用户可以将剪贴内容转换为纯文本、Markdown、JSON等格式,甚至使用OpenAI进行摘要、翻译、生成代码等操作。站长网2024-05-22 18:43:110000