Nomic AI 发布首个完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现
划重点:
⭐ Nomic AI 发布了 nomicembed-text-v1,是首个完全开源的长文本嵌入模型,在短文本和长文本评估中表现优异。
⭐ 该模型具有8192的序列长度,超越了之前512和2048长度的模型,展现了其在处理广泛文本上的能力。
⭐ nomicembed-text-v1的开发过程强调了审计性和可复制性,为 AI 社区树立了新的透明和开放标准。
在自然语言处理(NLP)领域不断发展的背景下,理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力,特别是通过文本嵌入的发展。这些嵌入成为许多应用的基础,包括大型语言模型(LLMs)的检索增强生成和语义搜索。它们将句子或文档转换为低维向量,捕捉语义信息的本质,从而促进聚类、分类和信息检索等任务。
然而,一个明显的限制是这些模型能够处理的上下文长度。大多数公认的开源模型在 MTEB 基准测试中,如王等人的 E5、李等人的 GTE 和萧等人的 BGE,限制在512个标记的上下文长度。这一限制削弱了它们在理解更广泛文档背景至关重要的场景中的实用性。相比之下,能够超过2048长度的模型,如 Voyage 的 Voyage-lite-01-instruct 和 Neelakantan 等人的 text-embedding-ada-002,仍然封闭。

在这种背景下,nomicembed-text-v1的推出标志着一个重要的里程碑。这个模型不仅是开源的,而且拥有令人印象深刻的8192的序列长度,在短文本和长文本评估中表现出色。它的独特之处在于其综合方法,将开放权重、开放数据和一个包含137M 参数设计在内的 Apache-2许可证下,确保了可访问性和透明性。
实现这一壮举的过程涉及数据准备和模型训练的细致阶段。最初,一个掩蔽语言建模预训练阶段利用了诸如 BooksCorpus 和2023年维基百科转储等资源,采用 bert-base-uncased 分词器创建适合长文本训练的数据块。接着是无监督对比预训练,利用跨多个数据集的4.7亿对数据对模型的理解进行细化,通过一致性过滤和选择性嵌入。
nomicembed-text-v1的架构反映了对 BERT 的深思熟虑的改编,以适应扩展的序列长度。创新,如旋转位置嵌入、SwiGLU 激活和 Flash Attention 的集成,突出了增强性能和效率的战略改进。模型的训练方案,具有30% 的掩蔽率和优化设置,进一步强调了为实现最佳结果而付出的严格努力。
在 GLUE、MTEB 和专门的长文本评估等基准测试的严格考验下,nomicembed-text-v1展现出卓越的实力。特别是在 JinaAI 长文本基准测试和 LoCo 基准测试中的表现,突显了其在处理广泛文本方面的优势,这是许多前辈所未能做到的。
然而,nomicembed-text-v1的旅程不仅仅限于性能指标。其开发过程强调了端到端的审计性和复制的潜力,为 AI 社区设立了透明和开放的新标准。通过发布模型权重、代码库和精心策划的训练数据集,nomicembed-text-v1的团队邀请持续创新和审查。
nomicembed-text-v1不仅是一项技术突破,更是 AI 开源运动中的一面旗帜。它打破了在长文本嵌入领域的准入壁垒,承诺一个未来,其中对话的深度与人类讨论的广度相匹配。
论文地址:https://arxiv.org/abs/2402.01613
项目入口:https://top.aibase.com/tool/contrastors
宗庆后今日逝世:42岁贷款创办娃哈哈 从无到有成龙头企业
快科技2月25日消息,今天,娃娃哈发布讣告,娃哈哈集团创始人、董事长宗庆后因病医治无效,于2024年2月25日10时30分逝世,享年79岁。宗庆后一生只创建了一家娃哈哈,并将其从无到有发展成龙头企业。公开资料显示,宗庆后于1945年10月12日出生于江苏省宿迁市东大街,共有兄妹五人。1978年,33岁的宗庆后结束了15年的农场磨炼回到杭州,十年里辗转于几家校办企业,依然郁郁不得志。站长网2024-02-25 14:43:350000Siri联合创始人:苹果与OpenAI合作不会长久
站长之家(ChinaZ.com)6月7日消息:据外媒报道,人工智能将是下周苹果全球开发者大会(WWDC)的一大重点。此前有消息称,苹果公司已与生成式AI领军企业OpenAI达成协议,OpenAI将为苹果iOS18操作系统提供生成式AI聊天机器人功能。站长网2024-06-08 09:51:450000新规或重创游戏股,恺英网络表示影响难以评估
今天午后开盘,游戏股普遍遭遇大面积下挫,截止午间休盘,网络游戏概念股大跌,哔哩哔哩跌幅5.35%、腾讯控股跌7.17%、网易跌超12%。此次下挫的原因在于国家新闻出版署发布了关于公开征求《网络游戏管理办法(草案征求意见稿)》的通知。通知中明确提到,网络游戏将不得设置每日登录、首次充值、连续充值等诱导性奖励,同时规定所有网络游戏必须设定用户充值限额等。站长网2023-12-22 14:18:430000900万人观看解清帅直播带货 同情的流量池能否装下变现的野心?
这两年舆论和关注度有一个统一的代名词叫做“流量”,当流量落在普通人身上时往往能带来命运的改变。因此趁着流量还在,开直播做带货已经成为社会常态。早前的张同学,去年的郑女士,今年的桃子老师、黄老师,都在关注度还不错的时候切入了直播带货业务。最近,又一位“名人”加入直播带货行列,他就是刚刚因“千万富翁”寻子被大家关注的解清帅。0000OpenAI「登月计划」剑指超级AI!LeCun提出AGI之路七阶段,打造世界模型是首位
通用AGI,或许近在咫尺。OpenAI下一步「登月计划」,就是实现人类期待已久的超级人工智能,而到达这一步的前提是——解决超级AI对齐问题。就在前几天,首席科学家Ilya带头OpenAI超级对齐团队取了的实质性成果。他们发表的最新论文,首次确定了超级AI对齐的研究方向:即小模型监督大模型。站长网2023-12-18 18:57:460002