Jina AI 推出“jina-embeddings-v2”:全球首个8k 开源文本嵌入模型
Jina AI 公布了其第二代文本嵌入模型的最新进展:jina-embeddings-v2。这个最先进的模型是唯一支持8K(8192个token)上下文长度的开源解决方案。这一成就使其在功能和在大规模文本嵌入基准 (MTEB) 排行榜上的性能方面与 OpenAI 的专有模型 text-embedding-ada-002相当。
Jina-embeddings-v2是开源文本嵌入模型的一大步,在容量和基准性能方面可与已建立的专有对应物相媲美。它的性能优于 OpenAI 的8K 模型 jina-embeddings-v2。值得注意的是,与 OpenAI 相比,Jina-embedding-v2在分类平均值、重新排名平均值、检索平均值和摘要平均值等关键指标上表现出更出色的性能。
研究人员表示,Jina-embeddings-v2以其先进的功能彻底改变了各种应用程序。在法律文件分析中,它捕捉和分析大量法律文本中的每一个错综复杂的细节。对于医学研究,它嵌入了科学论文,促进了整体分析并促进了突破性的发现。该模型深入研究文学分析中的长篇内容,捕捉主题元素以进行更丰富的理解。财务预测使用户能够从详细的财务报告中获得卓越的洞察力,从而增强决策过程。在对话式 AI 中,Jina Embeddings V2显著改善了聊天机器人对复杂用户查询的响应。凭借其多功能和强大的功能,Jina Embeddings V2站在改变我们处理各个领域复杂数据集和从中获取见解的方式的最前沿。

测试表明,这种支持上下文的 jina-embeddings-v2优于其他领先的基础嵌入模型,强调了更长上下文功能的实际优势。
研究人员表示,他们计划发表一篇学术论文,详细介绍Jina-embeddings-v2的技术复杂性和基准,为AI社区提供更深入地探索该模型能力的机会。该团队正在开发一个类似于 OpenAI 的嵌入 API 平台,该平台已进入高级阶段,可确保用户根据他们的需求量身定制的嵌入模型的无缝可扩展性。此外,Jina AI正在通过涉足多语言嵌入来扩大其语言能力,并打算引入德语-英语模型。此次扩张旨在增强他们的产品组合,并巩固他们作为人工智能创新领导者的地位。
该模型可以在 Hugging Face 上轻松免费下载。基础模型专为需要高精度的苛刻任务而制定,适用于学术研究或商业分析等领域。相比之下,小型型号的体积仅为0.07G,专为轻量级任务而设计,非常适合计算资源有限的移动应用程序或设备上的应用程序。认识到人工智能社区的不同需求,Jina AI提出了这两种不同的模型选项,允许用户选择最适合其计算需求并符合其应用偏好的模型。
项目地址:https://huggingface.co/jinaai/jina-embeddings-v2-base-en?ref=jina-ai-gmbh.ghost.io
官方介绍网址:https://jina.ai/news/jina-ai-launches-worlds-first-open-source-8k-text-embedding-rivaling-openai/
NCSC、CISA 等国际机构发布新的 AI 安全指南
划重点:🔸英国国家网络安全中心(NCSC)、美国网络安全与基础设施安全局(CISA)和其他16个国家的国际机构发布了关于人工智能系统安全的新指南。🔸这些指南旨在帮助开发人员在设计、开发、部署和运营AI系统时,确保安全性成为其核心组成部分。🔸指南内容涵盖了AI系统开发生命周期的四个关键阶段:安全设计、安全开发、安全部署和安全运维。站长网2023-11-30 11:30:480001在变化中寻找解法 数据安全为数字经济发展保驾护航
来源:人民网原创稿数据是数字经济的核心生产要素,而保护数据安全,是数字经济发展的重点之一。数据的主体是谁?如何从国家、企业层面保护数据安全?如何促进数据有序跨境流动?围绕数据安全这一话题,多位专家学者在博鳌亚洲论坛上展开讨论。0000Mastercard推出新AI模型“Decision Intelligence Pro”以提升网络内欺诈检测
划重点:1.📌新模型介绍:Mastercard推出名为“DecisionIntelligencePro”的新AI模型,据称能够比以前提高多达300%的欺诈交易检测率。2.📌模型原理:该模型基于Mastercard每年处理的约1250亿笔交易数据,通过分析持卡人与商家之间的关系,而非像OpenAI的GPT-4或Google的Gemini那样依赖于文字。站长网2024-02-02 15:38:560000Datasaur推出LLM实验室,助力企业构建自定义AI应用
要点:Datasaur推出LLMLab,帮助企业构建类似ChatGPT的自定义大型语言模型应用,提供全方位界面,从数据收集到模型选择和性能优化。LLMLab使企业能够在云端或本地部署上构建内部自定义生成式AI应用,同时减少了来自第三方服务的业务和数据隐私风险。该工具支持各种文本嵌入、向量数据库和基础模型,旨在为文本、文档和音频相关的AI应用提供解决方案,以满足不断变化的LLM技术需求。站长网2023-10-27 10:13:140000AWS语音转文本服务推出生成式AI技术 支持100种语言
要点:亚马逊的AWS公司宣布其语音转文本服务AmazonTranscribe现在由生成式人工智能(GenerativeAI)技术驱动,能够识别并转录来自100种语言的语音。AmazonTranscribe使用自监督算法通过数百种语言的数百万小时未标记音频数据进行训练,确保不同语言和口音的准确性。AWS强调在训练数据中平衡使用频率较低的语言,以确保它们与常用语言一样准确。站长网2023-11-28 15:55:580000