微软研究人员推新AI方法,用合成数据改进高质量文本嵌入
站长网2024-01-04 15:31:430阅
划重点:
🔍 研究人员提出了一种简单而新颖的方法,只使用合成数据就能获得高质量的文本嵌入
🔍 这种方法在文本嵌入领域取得了显著的成果,无需使用大量标记数据
🔍 使用专有的大型语言模型生成合成数据,取得了优异的性能并创造了新的记录
微软公司的研究团队最近提出了一种独特且简单的方法,用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤(少于1,000步),就取得了令人瞩目的成果。相比于现有的方法,该方法不依赖于多阶段的预训练和有限的标记数据微调,避免了繁琐的训练流程和手动收集数据集的问题,这些数据集通常在任务多样性和语言覆盖方面存在问题。
该方法利用专有的大型语言模型在约100种语言的文本嵌入任务中生成了各种合成数据。与复杂的预训练阶段不同,该方法使用基本的对比损失函数,将开源的仅解码的大型语言模型在生成的合成数据上进行微调。
研究团队进行了一些测试以验证该方法的有效性。该模型在激烈竞争的文本嵌入基准测试中展现了出色的结果,而无需使用任何标记数据。当使用合成数据和标记数据的组合进行改进时,该模型在 BEIR 和 MTEB 基准测试上取得了新的记录,成为了文本嵌入领域的最先进方法。
专利的大型语言模型如 GPT-4被用来生成包括多语言指令在内的各种合成数据。通过利用 Mistral 模型强大的语言理解能力,该方法在几乎所有工作类别上在激烈竞争的 MTEB 基准测试中取得了出色的性能。
该研究表明使用大型语言模型可以显著提高文本嵌入的质量。该研究的训练过程极大地减少了对中间预训练的需求,相较于当前的多阶段系统,更加简洁高效。
论文网址:https://arxiv.org/abs/2401.00368
0000
评论列表
共(0)条相关推荐
小米辟谣小米汽车配置价格图:一眼假
站长之家(ChinaZ.com)3月1日消息:近日,网络上流传出一张关于小米SU7配置和价格的图表,声称揭示了小米SU7的详细规格和价格信息。这张图表详细列出了四款配置车型,包括价格、加速、续航、电池、刹车等各项指标,引起了广泛关注。站长网2024-03-01 14:12:070000收入缩水,P8年薪50万,AI大军涌入传统车企
和候选人王铭长达半年时间的交流,汽车行业资深猎头李元终于成交了这一单。王铭从毕业起就进入了某头部互联网企业,长达十几年的工作中,他担任智能驾驶业务中的重要角色。在李元接到某传统汽车主机厂旗下造车新势力品牌的招聘需求时,他第一时间想到了王铭。“最终让他下定决心的是主动求变的心态”,李元告诉Tech星球。站长网2023-09-30 10:47:470000AI地图搜索工具Chatmap AI 描述性短语也能找到地方
ChatMap-AI是一款创新的人工智能地图搜索工具,可提供快速、精确的位置结果。用户可以用自然语言输入描述性短语或位置相关信息来查询位置。地址:https://www.chatmap-ai.com/站长网2023-08-24 16:51:290000AI视野:微软推出安卓版Copilot;GPT-4 API曝出重大漏洞;阿里巴巴推AI画图框架SCEdit;上海AI实验室浦医2.0发布
🤖📱💼AI应用微软推出安卓版Copilot微软推出安卓版Copilot,为用户提供免费的GPT-4服务,支持基本对话、文本生成和图像识别,突破OpenAI使用次数的限制。【AiBase提要】🚀微软发布安卓版Copilot,允许免费体验GPT-4,支持对话、文本生成、图像识别。🔐Copilot绕过OpenAI使用次数限制,每日登录可提高上限至30条,支持多端同步。站长网2023-12-27 16:25:550000NCSoft将推出系列AI语言模型VARCO 提高游戏开发效率
韩国的互动娱乐软件公司NCSoft宣布将推出一组名为VARCO的人工智能语言模型LLM,它由四种语言模型以及由这些语言模型提供支持的生成式人工智能服务组成。具体来说,VARCO提供的三项生成式人工智能服务旨在提高游戏开发效率。据该公司介绍,VARCO是“ViaAI,RealizeyourCreativityandOriginality”的缩写。站长网2023-08-17 14:50:210001