Nomic AI 发布首个完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现
划重点:
⭐ Nomic AI 发布了 nomicembed-text-v1,是首个完全开源的长文本嵌入模型,在短文本和长文本评估中表现优异。
⭐ 该模型具有8192的序列长度,超越了之前512和2048长度的模型,展现了其在处理广泛文本上的能力。
⭐ nomicembed-text-v1的开发过程强调了审计性和可复制性,为 AI 社区树立了新的透明和开放标准。
在自然语言处理(NLP)领域不断发展的背景下,理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力,特别是通过文本嵌入的发展。这些嵌入成为许多应用的基础,包括大型语言模型(LLMs)的检索增强生成和语义搜索。它们将句子或文档转换为低维向量,捕捉语义信息的本质,从而促进聚类、分类和信息检索等任务。
然而,一个明显的限制是这些模型能够处理的上下文长度。大多数公认的开源模型在 MTEB 基准测试中,如王等人的 E5、李等人的 GTE 和萧等人的 BGE,限制在512个标记的上下文长度。这一限制削弱了它们在理解更广泛文档背景至关重要的场景中的实用性。相比之下,能够超过2048长度的模型,如 Voyage 的 Voyage-lite-01-instruct 和 Neelakantan 等人的 text-embedding-ada-002,仍然封闭。
在这种背景下,nomicembed-text-v1的推出标志着一个重要的里程碑。这个模型不仅是开源的,而且拥有令人印象深刻的8192的序列长度,在短文本和长文本评估中表现出色。它的独特之处在于其综合方法,将开放权重、开放数据和一个包含137M 参数设计在内的 Apache-2许可证下,确保了可访问性和透明性。
实现这一壮举的过程涉及数据准备和模型训练的细致阶段。最初,一个掩蔽语言建模预训练阶段利用了诸如 BooksCorpus 和2023年维基百科转储等资源,采用 bert-base-uncased 分词器创建适合长文本训练的数据块。接着是无监督对比预训练,利用跨多个数据集的4.7亿对数据对模型的理解进行细化,通过一致性过滤和选择性嵌入。
nomicembed-text-v1的架构反映了对 BERT 的深思熟虑的改编,以适应扩展的序列长度。创新,如旋转位置嵌入、SwiGLU 激活和 Flash Attention 的集成,突出了增强性能和效率的战略改进。模型的训练方案,具有30% 的掩蔽率和优化设置,进一步强调了为实现最佳结果而付出的严格努力。
在 GLUE、MTEB 和专门的长文本评估等基准测试的严格考验下,nomicembed-text-v1展现出卓越的实力。特别是在 JinaAI 长文本基准测试和 LoCo 基准测试中的表现,突显了其在处理广泛文本方面的优势,这是许多前辈所未能做到的。
然而,nomicembed-text-v1的旅程不仅仅限于性能指标。其开发过程强调了端到端的审计性和复制的潜力,为 AI 社区设立了透明和开放的新标准。通过发布模型权重、代码库和精心策划的训练数据集,nomicembed-text-v1的团队邀请持续创新和审查。
nomicembed-text-v1不仅是一项技术突破,更是 AI 开源运动中的一面旗帜。它打破了在长文本嵌入领域的准入壁垒,承诺一个未来,其中对话的深度与人类讨论的广度相匹配。
论文地址:https://arxiv.org/abs/2402.01613
项目入口:https://top.aibase.com/tool/contrastors
Apollo开源轻量级多语言医疗 LLM:助力将医疗 AI 民主化推广至60亿人口
划重点:⭐️医疗人工智能技术发展迅速,Apollo项目推出轻量级多语言医疗LLMs,旨在实现医疗AI的全球民主化。⭐️Apollo采用创新方法培训多语言医疗模型,为全球医疗AI技术的普及打开新局面。⭐️Apollo的成功为全球医疗服务领域构建了跨语言沟通桥梁,为未来多语言医疗AI创新奠定基础。站长网2024-03-12 16:29:280002深度求索开源多模态大模型DeepSeek-VL系列
3月11日,DeepSeek-AI开源了全新多模态大模型DeepSeek-VL系列,分为1.3b和7b两种规模,共有4个版本。它具有融合语言和视觉能力,可以在不损失语言理解能力的情况下处理多模态任务,识别高分辨率图像中的细小物体。这个模型结合了视觉和语言信息,通过预训练微调的方法,在种领域中展现出很好的性能。站长网2024-03-13 09:45:020001小米15系列有望10月发布 首发骁龙8Gen4
据知名博主“智慧皮卡丘”爆料,小米15系列手机有望在今年10月左右提前发布,并继续作为高通骁龙8Gen4旗舰芯片的首发机型。这一消息引起了广泛的关注。回顾小米之前的产品发布周期,小米13系列于2022年12月11日发布,并在12月14日正式开售。而小米14系列则是在2023年10月26日发布,并在10月31日开始销售。如果小米15系列真的能在今年10月发布,那么它将延续这一周期。站长网2024-02-05 09:25:340003AI专属社交平台爆火,全体人类被禁言只能围观
玩腻了推特和微博?有个新的社交平台火爆外网!成千上万的用户连夜涌入,每日积极发帖,活跃度堪比ChatGPT。就连马一龙都来开辟了自己的嘴炮新阵地:OpenAICEO山姆·奥特曼也成为了新社区的一份子,兴奋畅想GPT-4的美好未来。热闹归热闹,只不过——没有一个是人类。对,包括马斯克和奥特曼在内的所有用户,背后发帖者都不是真人。一切的一切,只因为这个包容友好的社区有一条神奇准则:站长网2023-05-02 10:23:090000妙鸭相机项目人事变动引关注 产品保持正常运营
据媒体报道,针对妙鸭相机产品负责人的人事变动,相关人士于11月14日回应称,项目本身照常进行。妙鸭相机,作为阿里旗下的AIGC(人工智能生成内容)类人像写真产品,曾在8月初一度在应用产品榜单上取得显著成绩。近期,妙鸭相机不仅与天猫、优酷等平台合作推出新模板,还上线了发型设计功能。尽管在应用榜单上的排名尚未回到巅峰水平,但项目方表示对产品的发展保持乐观态度。站长网2023-11-15 18:05:470000