Nomic AI 发布首个完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现
划重点:
⭐ Nomic AI 发布了 nomicembed-text-v1,是首个完全开源的长文本嵌入模型,在短文本和长文本评估中表现优异。
⭐ 该模型具有8192的序列长度,超越了之前512和2048长度的模型,展现了其在处理广泛文本上的能力。
⭐ nomicembed-text-v1的开发过程强调了审计性和可复制性,为 AI 社区树立了新的透明和开放标准。
在自然语言处理(NLP)领域不断发展的背景下,理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力,特别是通过文本嵌入的发展。这些嵌入成为许多应用的基础,包括大型语言模型(LLMs)的检索增强生成和语义搜索。它们将句子或文档转换为低维向量,捕捉语义信息的本质,从而促进聚类、分类和信息检索等任务。
然而,一个明显的限制是这些模型能够处理的上下文长度。大多数公认的开源模型在 MTEB 基准测试中,如王等人的 E5、李等人的 GTE 和萧等人的 BGE,限制在512个标记的上下文长度。这一限制削弱了它们在理解更广泛文档背景至关重要的场景中的实用性。相比之下,能够超过2048长度的模型,如 Voyage 的 Voyage-lite-01-instruct 和 Neelakantan 等人的 text-embedding-ada-002,仍然封闭。
在这种背景下,nomicembed-text-v1的推出标志着一个重要的里程碑。这个模型不仅是开源的,而且拥有令人印象深刻的8192的序列长度,在短文本和长文本评估中表现出色。它的独特之处在于其综合方法,将开放权重、开放数据和一个包含137M 参数设计在内的 Apache-2许可证下,确保了可访问性和透明性。
实现这一壮举的过程涉及数据准备和模型训练的细致阶段。最初,一个掩蔽语言建模预训练阶段利用了诸如 BooksCorpus 和2023年维基百科转储等资源,采用 bert-base-uncased 分词器创建适合长文本训练的数据块。接着是无监督对比预训练,利用跨多个数据集的4.7亿对数据对模型的理解进行细化,通过一致性过滤和选择性嵌入。
nomicembed-text-v1的架构反映了对 BERT 的深思熟虑的改编,以适应扩展的序列长度。创新,如旋转位置嵌入、SwiGLU 激活和 Flash Attention 的集成,突出了增强性能和效率的战略改进。模型的训练方案,具有30% 的掩蔽率和优化设置,进一步强调了为实现最佳结果而付出的严格努力。
在 GLUE、MTEB 和专门的长文本评估等基准测试的严格考验下,nomicembed-text-v1展现出卓越的实力。特别是在 JinaAI 长文本基准测试和 LoCo 基准测试中的表现,突显了其在处理广泛文本方面的优势,这是许多前辈所未能做到的。
然而,nomicembed-text-v1的旅程不仅仅限于性能指标。其开发过程强调了端到端的审计性和复制的潜力,为 AI 社区设立了透明和开放的新标准。通过发布模型权重、代码库和精心策划的训练数据集,nomicembed-text-v1的团队邀请持续创新和审查。
nomicembed-text-v1不仅是一项技术突破,更是 AI 开源运动中的一面旗帜。它打破了在长文本嵌入领域的准入壁垒,承诺一个未来,其中对话的深度与人类讨论的广度相匹配。
论文地址:https://arxiv.org/abs/2402.01613
项目入口:https://top.aibase.com/tool/contrastors
天眼查联合华为云发布商查大模型“天眼妹”
天眼查与华为云于7月2日联合发布了全球首个商查大模型——"天眼妹"可信商业助理。据悉,该产品已经完成了内部测试,预计将于7月底向用户开放邀请试用。据了解,该产品结合了华为云先进的智能大模型技术和天眼查海量商业公开数据,为用户提供准确的商业信息。站长网2023-07-04 00:57:040000商汤科技推出AI数据分析工具“办公小浣熊”
商汤科技再次创新,基于其强大的“日日新SenseNova4.0”大模型能力,成功推出了一款新型数据分析工具——“办公小浣熊”。继备受欢迎的“代码小浣熊”之后,“小浣熊”家族迎来了这一全新成员。“办公小浣熊”拥有诸多引人注目的功能:直观易用的交互界面:设计简洁明了,即便是初次接触的用户也能迅速上手。多轮需求支持:用户只需通过文字描述他们的需求,“办公小浣熊”即可理解并执行。站长网2024-02-07 10:18:480002AI日报:阿里推可控版sora;Google Gemini API大降价;小米15系列全面升级为AI系统;Remini称下载次数最多AI应用
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、媲美Perplexity!MindSearch:模仿人类思维AI搜索引擎站长网2024-08-05 15:44:270000手握10万主播达人,无忧传媒攻不下电商
无忧传媒持续加码电商直播业务,与互联网监管日趋严格,秀场直播行业有关。虽然目前无忧传媒已经在电商直播赛道展露头角,但值得注意的是,目前其仅有几个知名的电商主播,与超十万的主播达人大盘相比,显得微不足道。为了扩大电商业务的影响力,无忧传媒已不满足于抖音内部的流量。站长网2023-07-04 16:18:100001比尔·盖茨预测未来人人都将拥有 AI「代理人」:人工智能将在几乎任何活动和生活的任何领域帮助用户
微软联合创始人比尔·盖茨近日对人工智能的未来做出大胆预测,他认为每个人很快都将拥有一个代表他们行动的机器人「代理人」。据《财富》杂志报道,盖茨表示:「在不远的将来,任何在线的人都将能够拥有一个由人工智能驱动的个人助手,其能力将远超今日技术。这些代理人更聪明。它们是主动的——能够在你提出要求之前就提出建议。」站长网2023-11-15 20:43:100002