StreamingLLM:让AI模型无限期平稳运行的一种方法
要点:
1. Meta、麻省理工学院 (MIT) 和卡内基梅隆大学 (CMU) 的研究人员介绍了一项名为StreamingLLM的技术,旨在解决大型语言模型(LLMs)在长时间对话中性能下降的问题。
2. StreamingLLM利用“attention sinks”(关注点汇)的概念,通过在对话的不同阶段重新引入初始标记,使LLMs能够在无限长度的文本上保持高性能。
3. 研究人员还提出了使用单个特殊标记作为“attention sink”来稳定LLMs的关注机制,从而在长时间对话中保持高性能。
Meta、麻省理工学院 (MIT) 和卡内基梅隆大学 (CMU) 的研究人员最近发表的一篇新论文介绍了一项名为StreamingLLM的创新技术,旨在解决大型语言模型(LLMs)在长时间对话中性能下降的问题。
LLMs如OpenAI的ChatGPT和Meta的Llama2在当今的人工智能领域备受关注,但它们都面临一个共同的挑战,即在与用户的对话中始终提供高质量的响应,无论对话持续多长时间或交换的对话数量如何。这是因为LLMs在训练时是基于特定长度的数据块或序列进行预训练的,一旦用户输入的标记超过了这个长度,LLM的性能就会下降,这对企业希望在开放式对话中使用LLMs来帮助客户或员工是不可接受的。

图源备注:图片由AI生成,图片授权服务商Midjourney
StreamingLLM的解决方案是利用“attention sinks”概念,这些是在对话的不同阶段重新引入初始标记,以使LLMs能够在无限长度的文本上保持高性能。
研究人员发现,LLMs在对话或训练的早期会更加关注初始标记,因为它们对所有后续标记可见,而后续标记只对有限的后续标记可见。因此,通过在对话后期重新引入一些初始标记,用户可以有效地恢复LLM的性能。这就好比通过在对话后期使用与开始对话时相同的关键词,突然使LLMs在对话后期能够提供高质量的响应。
研究人员还提出了使用单个特殊标记作为“attention sink”的方法,通过在对话的不同阶段手动或自动重新引入此标记,可以持续保持LLMs的性能。这项技术使LLMs能够在无需频繁刷新缓存的情况下,不间断地为用户提供帮助。然而,研究人员也强调了这项技术的局限性,它并不扩展LLMs的上下文窗口,也不能确保LLM会记住对话的每个时刻的内容。
综合而言,StreamingLLM技术为LLMs在长时间对话中保持高性能提供了创新的解决方案,有望在许多领域,特别是需要持续不断地与用户交互的应用中得到广泛应用。
法国专家声称ChatGPT品酒水平超过人类
法国一直以其世界顶级葡萄酒而自豪,但现在必须面对一个尴尬的事实,那就是在一些国际专家看来澳大利亚或其他欧洲国家的葡萄酒往往超过法国葡萄酒。澳大利亚今年在十分权威的Decanter世界葡萄酒大赛中位居第一,而在葡萄酒界具有巨大影响力的《葡萄酒观察家》杂志评选出的十大葡萄酒中,法国仅有三种上榜。站长网2023-08-28 10:24:190000阿里淘天第一季度收入932.16亿元!88VIP会员突破3500万人
快科技5月14日消息,今晚,阿里巴巴发布2024财年四季度及全年业绩。财报显示,截至2024年3月31日,淘天集团收入同比增长4%至932.16亿元(129.10亿美元),88VIP会员数量突破3500万人。0000AMD AI 业务展望提升,股价仍受挫
划重点:-💼AMD提高MI300人工智能加速器产品的预期收入至40亿美元以上,但股价仍下跌。-💰第一季度净收入为1.23亿美元,符合预期,但股价表现疲弱。-📉尽管数据中心业务增长强劲,但游戏业务收入下降,竞争压力加剧。站长网2024-05-02 22:47:310000华为Mate 60系列降价:最高优惠800元
今天凌晨,华为意外地对其Mate60系列智能手机进行了官方降价。根据华为官网的信息,Mate60标准版的原价从5499元降至4999元,降价幅度为500元;Mate60Pro的原价从6499元降至5699元,降价幅度达到800元;而Mate60Pro的原价从8999元降至8199元,同样降价800元。站长网2024-08-15 21:18:090000除了不能当女婿,DeepSeek比董宇辉差到哪了?
“DeepSeek推荐”正在成为年轻人新的消费决策仪式。打开购物APP之前,在北京工作的白领刘雪先去寻求DeepSeek的帮助:“我27岁,敏感肌,请你帮我推荐几款适合我的防晒霜”。几秒钟后,DeepSeek列出了一份详细报告,并结合皮肤状况、成分、匹配度等多个纬度分析,推荐了多个品牌的防晒霜。最终,刘雪根据她的情况,购入了其中一款防晒霜。0000