Vicuna Makers打造小型AI模型Llama-rephraser,130亿参数、性能媲美GPT-4
**划重点:**
1. 🌐 Vicuna Makers的研究团队成功构建了一个只有130亿参数的小型语言模型(LLM),在性能上与OpenAI的GPT-4相媲美。
2. 🔄 利用新工具LLM Decontaminator,研究人员通过改写测试集,使得LLM能够在主要基准测试中达到GPT-4的性能水平。
3. 🌟 Llama-rephraser的研发不仅在性能上取得突破,而且通过挑战对语言模型中数据污染的理解,为业务提供了性能与成本平衡的可能性。
Vicuna Makers的研究团队在构建Vicuna语言模型的基础上,成功推出了一款新型的小型人工智能模型(LLM),该模型在性能上与OpenAI的GPT-4相媲美,仅包含130亿个参数。
这一新模型被命名为Llama-rephraser,由LMSYS Org揭示。尽管规模相对较小,但该模型在主要基准测试中达到了GPT-4的性能水平。这一成就的关键在于团队采用了一种独特的方法:通过改写测试集,即对测试样本进行释义,使模型能够进行泛化并实现高性能。
通过在数据集中改变句子,Llama-rephraser不仅帮助模型记住文本,更能理解其含义。通过用变化的短语提示模型,研究团队验证了模型是否真正理解了材料。结果表明,Llama-rephraser能够返回正确的响应。

这一创新性的方法让这个拥有130亿参数的Llama-rephraser在基准测试中取得了GPT-4级别的成绩,包括涵盖基本数学、计算机科学、法律等多个领域的流行MMLU基准测试,以及人工评估模型代码生成的HumanEval基准测试。
这一研究的最大成就之一是挑战了对语言模型中数据污染的理解。数据污染指的是测试集的信息泄漏到训练集中,可能导致对模型性能的过于乐观的估计,尤其是对于一个只有130亿参数的模型能够达到GPT-4的成果。
在构建Llama-rephraser的研究过程中,他们发现类似CodeAlpaca的GPT生成的合成数据可能导致微妙的污染,这是难以检测的。为了解决这个问题,他们引入了一个名为LLM Decontaminator的新工具,用于量化数据集的释义样本与基准的对比,使开发人员能够估计数据集中释义样本的污染程度,并将其删除。
对于企业而言,这意味着在采用人工智能解决方案时,有必要使模型规模更小,以保持运营成本的低廉。像Llama-rephraser这样性能媲美GPT-4的小型模型的出现,有助于企业在性能和成本之间取得平衡。此外,LLM Decontaminator这样的工具还可以帮助企业完善其现有系统,使当前一代模型得以改进,而无需在开发成本上投入大量资金构建全新的模型。
LMSYS Org在博客文章中呼吁社区重新思考在大型语言模型背景下的基准测试和数据污染,并在对大型语言模型进行公共基准测试时采用更强大的去污染工具。
阿里魔搭社区开源一站式视频生成工具MotionAgent
近日,阿里巴巴达摩院旗下魔搭社区(ModelScope)宣布开源一站式视频生成工具MotionAgent。MotionAgent集成了大语言模型、文本生成图片模型、视频生成模型和音乐生成模型。使用MotionAgent可以通过输入创意和描述,让AI帮助生成剧本、剧照、视频和音乐。站长网2023-09-01 11:32:550000今年应届生平均招聘月薪10342元:人工智能行业月薪最高
10月12日消息,猎聘大数据研究院发布《全国高校趋势与展望2023》。报告显示,2021届学生岗位平均招聘月薪9292元,2023届为10342元,三年来上涨1050元。2021届高校毕业生期望月薪7417元,2023届为8033元,三年来上涨616元。站长网2023-10-12 14:03:360000巴黎世家雨中走秀:推出支付宝联名T恤 一件4700元
近日,法国高端时尚品牌巴黎世家(Balenciaga)在上海盛大举办了其备受瞩目的春季25系列发布秀,这也是艺术总监DemnaGvasalia首次在亚洲呈现其设计才华。而在这场时尚盛宴中,最引人注目的无疑是支付宝与巴黎世家跨界合作的联名款T恤。站长网2024-05-31 16:18:020003谷歌被秒杀!高保真3D头像逼真到恐怖 小姐姐挤眼,挑眉毫无破绽
最近,一项由德国慕尼黑工业大学(TUM)和伦敦大学学院(UCL)等研究团队提出的新算法——NPGA(NeuralParametricGaussianAvatar),引起了广泛关注。这项技术能够生成高保真3D头像,逼真的表情甚至让人怀疑自己的眼睛。从官方给出的演示可以看到,NPGA生成的小姐姐不仅可以做出挤眼,挑眉,嘟嘴等各种丰富的表情,而且眼神细节等丝毫看不出破绽,俨然和真人无异。站长网2024-05-31 19:47:320001不要9块9「写真」零元购,妙鸭挑战者出现,可白嫖25张
妙鸭相机带爆了AIGC艺术照赛道,这不,又有新产品探头。而且还卷起来了…妙鸭还要九块九,这个工具可以免费白嫖?出于好奇我们顺藤下载了个APP,打开界面一看,果然也是上传照片生成艺术照的类型,从种类来看还挺多样。点开一个样图,乍一看还不错。和妙鸭相似的是,它同样是传图一次训练,任意生成全身复杂场景照片。但从网友反馈来看,这个最大的区别是可以免费试用,数量25张。站长网2023-08-28 18:15:030000