Salesforce新AI模型可改善数据分析 XGen-7B基准测试超越Meta的LLaMA-7B
随着对AI工具的需求增加,对能够完成更多任务的系统的需求也越来越大。
企业可以通过拥有像ChatGPT或Bard这样的聊天界面来受益,这些界面能够对冗长的文件进行摘要或筛选客户数据以获取见解。但要执行这些任务,模型需要经过大量数据的训练。而企业通常选择了更小、更具成本效益的模型,问题在于这些模型无法很好地处理这些任务。
像Meta的LLaMA、Falcon-7B和MPT-7B等开源模型,其最大序列长度约为2,000个token,使得它们难以处理像文件这样的冗长非结构化数据。
这也是Salesforce推出的一系列大型语言模型XGen-7B的原因,XGen-7B在长达8,000个token的序列上进行训练,因此更容易处理冗长的文档输入,总共可处理1.5万亿个token。
Salesforce的研究人员使用Salesforce内部的库JaxFormer以及公共领域的教学数据对这一系列70亿参数的模型进行训练。
与LLaMA、Falcon和Redpajama等开源模型相比,所得到的模型在性能上达到或超过了它们。
Salesforce的AI研究人员表示,使用Google Cloud的TPU-v4云计算平台,在1万亿个token上训练这个模型只需花费15万美元。
XGen-7B基准测试亮眼
Salesforce的模型在一系列基准测试中取得了令人印象深刻的成绩,在许多方面都超过了受欢迎的开源大型语言模型。
在对“Measuring Massive Multitask Language Understanding(MMLU)”基准测试进行测试时,XGen在四个测试类别中有三个类别取得了最高分,而且在加权平均分中也是最高的。只有Meta的LLaMA在人文学科方面的MMLU测试中比XGen得分更高。
在同一基准测试的零样本测试中,XGen取得了类似的结果,但在人文学科方面仍然不及LLaMA。
就整体零样本测试而言,XGen只在“TruthfulQA”基准测试中超过了其他模型。在包括ARC_ch、Hella Swag和Winogrande在内的基准测试中,Meta的LLaMA取得了更好的结果。
然而,在代码生成任务上,XGen在评估基准测试的pass@1指标上超过了LLaMA和其他模型,得分为14.20,而LLaMA只有10.38。
在长序列任务中,Salesforce的这个新AI模型表现最出色,在SCROLLS基准测试的QMSum和GovReport数据集上得分非常高。
不过,Salesforce的研究人员指出,由于XGen模型没有在相同的教学数据上进行训练,“它们不是严格可比较的”。
XGen-7B系列
Salesforce的研究人员创建了三个模型——XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-inst。
XGen-7B-4K-base能够处理8000亿个上下文token,它是在2,000个token,后来又是4,000个token上进行训练的。它以Apache-2.0许可发布,这意味着可以根据不同的许可协议分发派生作品,但所有未修改的组件必须使用Apache2.0许可。
XGen-7B-8K-base在之前提到的模型的基础上增加了3000亿个token,使其总的上下文理解能力达到了1.5万亿个token。这个模型也以Apache2.0许可发布。
XGen-7B-inst在公共领域的教学数据上进行了微调,包括databricks-dolly-15k、oasst1、Baize和与GPT相关的数据集。该模型在4,000个和8,000个token上进行了训练,仅用于研究目的。
为了训练这些模型,Salesforce的研究人员采用了两阶段的训练策略,每个阶段使用不同的数据混合。
团队解释说:“对于C4,我们使用C4流程处理了6个Common Crawl转储,并通过仅保留具有相同URL的文档中的最新时间戳,跨不同的转储去重了文档。我们训练了一个线性模型,将C4数据分类为类似于维基百科的文档和随机文档。然后,我们选择了前20%的类似于维基百科的文档。”
然后,将Salesforce和Hugging Face创建的代码生成模型Starcoder添加到支持代码生成任务。然后将Starcoder的核心数据与前一阶段的数据混合。
然后使用OpenAI的tiktoken对模型的数据进行token化,随后添加了连续空白和制表符的额外token。
虽然XGen的训练过程得到了一系列功能强大的AI模型,但也存在一些缺陷。Salesforce指出,该模型仍然存在幻觉问题。
有关XGen-7B的更多信息,Salesforce在其博客上发布了一篇详细的文章。模型的代码库可以在GitHub上找到,模型的检查点可以在Hugging Face上找到。
上下文至关重要
能够理解更长输入的模型对企业来说可能是一个巨大的优势。
Salesforce的研究人员表示,大量的上下文“使得预训练的语言模型能够查看客户数据并对有用的信息查询做出回应”。
对于聊天机器人应用来说,更多的上下文意味着更多的对话。Salesforce并不是唯一一个研究这一概念的组织。Anthropic是由OpenAI的前员工创办的新兴AI初创公司,最近扩大了其旗舰应用Claude的上下文长度。
Claude现在可以用于从多个冗长的商业文件或书籍中获取信息,用户可以询问有关数据的问题。
目前的模型在增加上下文长度方面存在困难。当ChatGPT和Bing的AI聊天等应用开始出现时,用户发现他们在单个对话中使用模型的时间越长,模型的回应变得越来越不稳定。这是由于模型无法处理较长的上下文长度,导致混淆和产生幻觉。
XGen-7B项目网址:https://blog.salesforceairesearch.com/xgen/
Gartner报告:80%企业将在2026年前采用人工智能
划重点:1.🚀人工智能潮流:自ChatGPT发布以来,生成式人工智能一直处于上升趋势,企业不断开发或采用AI模型。2.📊预测数字:Gartner报告预测,到2026年,80%的企业将使用生成式AIAPI或模型,相较于2023年的不到5%,增长显著。3.💡创新方向:报告突出了未来十年对组织产生巨大影响的创新领域,包括生成式AI应用、基础模型和AI信任、风险以及安全管理。站长网2023-10-13 11:04:130000小米魅族线下店互祝对方魅族21、小米14大卖 网友:格局打开
快科技12月3日消息,今日,有数码博主晒出的一张图片显示,小米魅族线下店互祝对方魅族21、小米14大卖,画面十分和谐。网友纷纷点赞:格局打开。图片中,小米和魅族的线下店紧邻着营业,中间两个花篮上分别写着:祝直屏旗舰小米14持续热销隔壁张老板”祝最美直屏旗舰魅族21上心大卖隔壁林老板”。魅族21唯一四边等窄白面板,小米14唯一小屏旗舰,两家商业互吹起来了,挺好”,该博主写道。站长网2023-12-03 18:08:450002微软上线Java 版Semantic Kernel 为Java应用程序提供AI功能集成
SemanticKernel是一个轻量级的SDK,它将大型语言模型(LLM)与现有的编程语言(如C#、Python和Java)集成在一起。可以减少自然语言语义和内存管理等复杂任务。站长网2023-07-21 17:06:360000AI马斯克泛滥:1分钟骗走退休老人几十万
快科技8月17日消息,随着AI人工智能的快速发展,网络上出现了各种各样逼真的篡改视频,而这也被不法分子利用,开始进行网络诈骗。据纽约时报近日报道,AI生成的埃隆马斯克形象已经出现在数千条虚假广告中并导致数十亿美元的诈骗,并且已有人因此上当受骗。报道指出,去年底,82岁的退休老人蒂夫博尚普在网络上看到了一段有关马斯克的真实采访”,视频里,马斯克支持一项承诺快速回报的激进投资机会。0000网易有道推出“子曰”大模型2.0版本 并发布AI家庭教师“小P老师”
教育科技公司网易有道在1月3日举办的发布会上推出了国内首个教育大模型"子曰"2.0版本,并发布了基于大模型研发的三大创新应用及一款智能硬件新品。其中,最受关注的是AI家庭教师"小P老师",它能够为学生提供全学段、全学科的答疑支持,并通过互动沟通的方式启发孩子们的思维。目前,小P老师已率先落地于有道AI学习机X20。站长网2024-01-04 09:15:070001