Nomic AI 发布首个完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现
划重点:
⭐ Nomic AI 发布了 nomicembed-text-v1,是首个完全开源的长文本嵌入模型,在短文本和长文本评估中表现优异。
⭐ 该模型具有8192的序列长度,超越了之前512和2048长度的模型,展现了其在处理广泛文本上的能力。
⭐ nomicembed-text-v1的开发过程强调了审计性和可复制性,为 AI 社区树立了新的透明和开放标准。
在自然语言处理(NLP)领域不断发展的背景下,理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力,特别是通过文本嵌入的发展。这些嵌入成为许多应用的基础,包括大型语言模型(LLMs)的检索增强生成和语义搜索。它们将句子或文档转换为低维向量,捕捉语义信息的本质,从而促进聚类、分类和信息检索等任务。
然而,一个明显的限制是这些模型能够处理的上下文长度。大多数公认的开源模型在 MTEB 基准测试中,如王等人的 E5、李等人的 GTE 和萧等人的 BGE,限制在512个标记的上下文长度。这一限制削弱了它们在理解更广泛文档背景至关重要的场景中的实用性。相比之下,能够超过2048长度的模型,如 Voyage 的 Voyage-lite-01-instruct 和 Neelakantan 等人的 text-embedding-ada-002,仍然封闭。

在这种背景下,nomicembed-text-v1的推出标志着一个重要的里程碑。这个模型不仅是开源的,而且拥有令人印象深刻的8192的序列长度,在短文本和长文本评估中表现出色。它的独特之处在于其综合方法,将开放权重、开放数据和一个包含137M 参数设计在内的 Apache-2许可证下,确保了可访问性和透明性。
实现这一壮举的过程涉及数据准备和模型训练的细致阶段。最初,一个掩蔽语言建模预训练阶段利用了诸如 BooksCorpus 和2023年维基百科转储等资源,采用 bert-base-uncased 分词器创建适合长文本训练的数据块。接着是无监督对比预训练,利用跨多个数据集的4.7亿对数据对模型的理解进行细化,通过一致性过滤和选择性嵌入。
nomicembed-text-v1的架构反映了对 BERT 的深思熟虑的改编,以适应扩展的序列长度。创新,如旋转位置嵌入、SwiGLU 激活和 Flash Attention 的集成,突出了增强性能和效率的战略改进。模型的训练方案,具有30% 的掩蔽率和优化设置,进一步强调了为实现最佳结果而付出的严格努力。
在 GLUE、MTEB 和专门的长文本评估等基准测试的严格考验下,nomicembed-text-v1展现出卓越的实力。特别是在 JinaAI 长文本基准测试和 LoCo 基准测试中的表现,突显了其在处理广泛文本方面的优势,这是许多前辈所未能做到的。
然而,nomicembed-text-v1的旅程不仅仅限于性能指标。其开发过程强调了端到端的审计性和复制的潜力,为 AI 社区设立了透明和开放的新标准。通过发布模型权重、代码库和精心策划的训练数据集,nomicembed-text-v1的团队邀请持续创新和审查。
nomicembed-text-v1不仅是一项技术突破,更是 AI 开源运动中的一面旗帜。它打破了在长文本嵌入领域的准入壁垒,承诺一个未来,其中对话的深度与人类讨论的广度相匹配。
论文地址:https://arxiv.org/abs/2402.01613
项目入口:https://top.aibase.com/tool/contrastors
Window 12将至,AI唱大戏
俗话说得好:“不怕神对手,就怕猪队友”,不仅仅是在游戏中,现实中被合作伙伴“坑”一把的情况也时常发生。前段时间,英特尔的首席财务官在花旗分析师会议上,暗示消费者将会在明年因为Windows而选择升级自己的处理器。站长网2023-10-10 09:04:440000继丑萌的黏土滤镜之后,AI毛毡滤镜又在抖音火了
近期,抖音平台上又掀起了一股新的AI滤镜热潮——毛毡滤镜,它迅速走红并占据了抖音热榜,相关话题#用AI穿越奇妙毛毡世界#和#被毛毡萌化了的青春#分别成为热门话题和挑战榜上的Top5。这款AI毛毡特效允许用户通过一键操作,将他们普通的照片转换成具有羊毛毡手工艺质感的图像。经过转换,无论是人物还是动物,都会呈现出一种柔美、温馨、柔和的视觉效果,给人以温馨治愈的感觉。站长网2024-06-09 00:30:200001国内免费AI编程助手通义灵码:AI人工智能写代码 开发效率提升10倍
对于很多开发者来说,已经开始借助AI智能编码助手提升自己的开发效率。本文为大家分享一款国内好用的AI编程工具通义灵码。据官方介绍,通义灵码是国内用户规模第一的智能编码助手,基于SOTA水准的通义千问代码模型Code-Qwen1.5研发,插件下载量已超350万。体验地址:https://top.aibase.com/tool/tongyilingma站长网2024-05-24 18:28:430000加拿大发布关于生成式AI系统的自愿行为准则
划重点:1.📜加拿大发布自愿行为准则:加拿大政府发布了有关生成式人工智能系统的自愿行为准则,旨在规范该技术的发展与使用。2.🧐准则内容概述:准则要求开发者和管理者在系统开发中承担责任、确保安全性、公平与公正,提高透明度、进行人工监督和监控,并确保系统有效性与健壮性。站长网2023-10-13 14:40:040001斯坦福博士助力,一年打造7亿融资独角兽!银河通用机器人创具身智能赛道天使轮融资纪录
【新智元导读】过去一年,美元在华投资大幅缩水,资本市场呈现「寒冬」态势。然而,在这样的背景下,这家中国公司成立仅一年却创纪录的拿下超7亿元的天使轮融资,得到产业界、学界、国家队资本及市场化机构等多方支持,成为具身智能赛道中的黑马。他们更是在前不久的智源大会上放出大招,让机器人连续两天与观众现场真机互动,震惊一众同行。这家独角兽会成为中国版的「OpenAIFigure」吗?站长网2024-06-22 23:42:120000