StreamingLLM:让AI模型无限期平稳运行的一种方法
要点:
1. Meta、麻省理工学院 (MIT) 和卡内基梅隆大学 (CMU) 的研究人员介绍了一项名为StreamingLLM的技术,旨在解决大型语言模型(LLMs)在长时间对话中性能下降的问题。
2. StreamingLLM利用“attention sinks”(关注点汇)的概念,通过在对话的不同阶段重新引入初始标记,使LLMs能够在无限长度的文本上保持高性能。
3. 研究人员还提出了使用单个特殊标记作为“attention sink”来稳定LLMs的关注机制,从而在长时间对话中保持高性能。
Meta、麻省理工学院 (MIT) 和卡内基梅隆大学 (CMU) 的研究人员最近发表的一篇新论文介绍了一项名为StreamingLLM的创新技术,旨在解决大型语言模型(LLMs)在长时间对话中性能下降的问题。
LLMs如OpenAI的ChatGPT和Meta的Llama2在当今的人工智能领域备受关注,但它们都面临一个共同的挑战,即在与用户的对话中始终提供高质量的响应,无论对话持续多长时间或交换的对话数量如何。这是因为LLMs在训练时是基于特定长度的数据块或序列进行预训练的,一旦用户输入的标记超过了这个长度,LLM的性能就会下降,这对企业希望在开放式对话中使用LLMs来帮助客户或员工是不可接受的。
图源备注:图片由AI生成,图片授权服务商Midjourney
StreamingLLM的解决方案是利用“attention sinks”概念,这些是在对话的不同阶段重新引入初始标记,以使LLMs能够在无限长度的文本上保持高性能。
研究人员发现,LLMs在对话或训练的早期会更加关注初始标记,因为它们对所有后续标记可见,而后续标记只对有限的后续标记可见。因此,通过在对话后期重新引入一些初始标记,用户可以有效地恢复LLM的性能。这就好比通过在对话后期使用与开始对话时相同的关键词,突然使LLMs在对话后期能够提供高质量的响应。
研究人员还提出了使用单个特殊标记作为“attention sink”的方法,通过在对话的不同阶段手动或自动重新引入此标记,可以持续保持LLMs的性能。这项技术使LLMs能够在无需频繁刷新缓存的情况下,不间断地为用户提供帮助。然而,研究人员也强调了这项技术的局限性,它并不扩展LLMs的上下文窗口,也不能确保LLM会记住对话的每个时刻的内容。
综合而言,StreamingLLM技术为LLMs在长时间对话中保持高性能提供了创新的解决方案,有望在许多领域,特别是需要持续不断地与用户交互的应用中得到广泛应用。
阿里云推出通义万相AI绘画大模型
在2023年世界人工智能大会上,阿里云宣布推出了通义大模型家族的新成员——通义万相。据介绍,这是一个进化中的AI绘画模型,能够支持文生图等功能。目前,通义万相已经正式上线,并向公众开放邀测。通义万相作为一款AI绘画模型,它能够通过机器学习和自然语言处理技术,从文本描述中生成对应的图片或画作。这对于那些想要通过文字表达创意的人来说,无疑是一个非常有用的工具。站长网2023-07-08 16:23:070001“文心、通义和混元”们的2023:道阻且长,仍向远方
随着2024年的钟声即将敲响,站在这个历史的节点上,回望过去一年,发展、进步、改变、革新最大的行业非人工智能莫属,AI的快速进步如同翻江倒海一般,激荡着无数的可能性。其中,2023年里国产大模型的喷涌出现和快速发展,作为最引人瞩目的焦点,为我们每个人的工作与生活带来前所未有的新奇体验,并开启了一波AI发展的浪潮。0000Salesforce新AI模型可改善数据分析 XGen-7B基准测试超越Meta的LLaMA-7B
随着对AI工具的需求增加,对能够完成更多任务的系统的需求也越来越大。企业可以通过拥有像ChatGPT或Bard这样的聊天界面来受益,这些界面能够对冗长的文件进行摘要或筛选客户数据以获取见解。但要执行这些任务,模型需要经过大量数据的训练。而企业通常选择了更小、更具成本效益的模型,问题在于这些模型无法很好地处理这些任务。站长网2023-07-04 15:58:070000想不起电影名字?Film Recommender只需通过简单文字描述即可匹配电影
FilmRecommender是一款电影个性化推荐与发现工具。它允许用户通过简单的文字描述,比如提供背景设定、情节、主题或演员等信息,来查找和发现感兴趣的电影。体验地址:https://filmfinder.ai/FilmRecommender具有以下核心功能和价值:1.个性化电影推荐站长网2023-08-28 10:15:130000孟子3-13B大模型正式开源
澜舟科技近日宣布,其研发的孟子3-13B大模型正式开源,并向学术研究领域全面开放,同时支持免费商用。这一轻量化大模型在多项基准测试中展现了优异的性能,特别是在参数量20B以内的模型中,其中英文语言能力尤为突出,数学和编程能力也位于行业前列。站长网2024-04-06 14:20:430000