新微调方法LongLoRA可低成本提升LLM上下文理解能力
文章概要:
1. 长文本理解突破:MIT与香港中文大学合作研发出LongLoRA,一种优化方法,可提升大型预训练语言模型(LLM)的上下文理解能力,而无需大量计算资源。
2. 训练方法创新:研究人员采用稀疏本地关注与参数高效调优策略相结合的方法,显著降低了训练成本,同时保持性能。
3. 上下文长度的关键性:文章讨论了上下文长度对LLM性能的影响,强调了在某些情况下,上下文长度比模型参数数量更为重要。
近日,麻省理工学院(MIT)与香港中文大学联手开发了一项名为LongLoRA的新微调方法,为大型预训练语言模型(LLM)的发展提供了全新的途径。这一方法被设计用来增强LLM对上下文的理解能力,而无需过多的计算资源,为经济型超大LLM的构建铺平了道路。
LLM在自然语言处理领域发挥着巨大的作用,但通常需要巨大的计算资源来进行训练。文章指出,训练一个具有8192长度上下文的模型,相比于2048长度上下文,需要16倍的计算资源。而上下文长度实际上代表了LLM在回应给定提示时对整个上下文的清晰理解能力,这对于模型的性能至关重要。
图源备注:图片由AI生成,图片授权服务商Midjourney
LongLoRA方法的创新之处在于研究人员采用了两种关键方法来拓展LLM的上下文理解能力。首先,他们采用了稀疏本地关注,具体是“shift short attention(S2-Attn)”方法,通过这一方法在Fine-tuning过程中,高效地实现了上下文的拓展,同时保持了与标准关注机制相似的性能水平。
其次,研究人员重新审视了参数高效调优策略,发现结合可训练的嵌入和标准化方法的LoRA在上下文扩展方面非常有效。LongLoRA在多个任务中都获得了强大的实验结果,使用了LLaMA2模型,从7B/13B到70B不等。这一方法可以将模型的上下文从4k扩展到100k,适用于LLaMA27B,或者从32k扩展到LLaMA270B,而仅需要一台8× A100机器。值得注意的是,LongLoRA保持了原始模型架构,并与各种现有技术兼容。
为了提高LongLoRA方法的实用性,研究团队还创建了LongQA数据集,用于监督Fine-tuning,包括超过3,000个问题-答案对,其中包含了详细的上下文。
研究的关键发现包括对长序列语言建模的评估,研究发现,通过更长的上下文训练,模型的性能得到了提升,这显示了他们Fine-tuning方法的有效性。另外,研究还探讨了这些模型在单台机器上能够处理的最大上下文长度,发现即使在较小的上下文长度下,模型仍然表现出色。此外,研究还进行了基于检索的评估,测试了模型在寻找长对话中特定主题的任务中的表现,结果显示,这些模型在某些情况下甚至优于同类竞争模型,并且更高效地适应了开源数据。
最近的讨论中,关于LLaMA和Falcon等语言模型的性能已经开始超越了更大模型(如GPT-4或PaLM),焦点逐渐从增加模型参数数量转向了上下文令牌数量或上下文长度的考虑。文章还引用了一项研究,指出与常见误解相反,较长的输入文本并不总是导致更好的输出。实际上,在将较长的文章输入模型(例如2000字)时,模型通常只能理解前700-800字的内容,之后生成的回应可能会变得不太连贯。这一现象类似于人类记忆的工作方式,信息的开头和结尾通常比中间部分更容易被记住。
LongLoRA方法的推出为经济型超大LLM的发展提供了新的路径,通过优化上下文理解能力,降低了训练成本,有望推动自然语言处理领域的进一步发展。
Gen-2史诗级更新 允许用户通过简单文本生成4K高清视频
核心要点:1.Runway的AI视频生成工具Gen-2经历了一次重大更新,可以通过简单的文本输入产生4K高清视频,克服了以往的不连贯和低清问题。2.Gen-2的更新基于文本、图像、视频混合的训练模式,提高了生成视频的质量和一致性,同时降低了训练消耗。站长网2023-11-03 11:39:250000Google在Play Store中推出搜索栏广告 以进一步推广推荐内容
据国外媒体报道,Google在PlayStore中引入搜索栏广告,以进一步推广推荐内容。这一变化包含在Google4月份的系统更新中,其中引入了少量的改进。PlayStore充满了推荐内容,而Google希望通过在搜索栏中引入这些推荐内容来加强它们的推广。根据Google最近的系统更新日志,现在的搜索结果将包括“具有限时活动的应用建议以及赞助建议”。站长网2023-05-08 14:43:38000012306回应一些车次为何开售即秒光 称未将票额分配给第三方平台
针对“火车票难买一些车次开售即秒光”的问题,中国铁路官方回应称,今年春运期间,尽管铁路部门尽最大努力安排了运输能力,将全部客车投入运营,每日最多可提供1070万个客票席位,但由于旅客出行需求极度集中、极不均衡、单向流动等特点,加上部分机构平台采用代购、抢票、囤票等特殊手段加价牟利,使得火车票供需矛盾仍然十分突出。站长网2024-02-05 08:27:160000eBay安卓APP悄然推出生成式AI功能 可生成商品描述
eBay本周在其Android手机上悄悄推出了基于AI的描述生成器,但到目前为止似乎并没有引来用户更多的关注。生成式人工智能最近大受欢迎,许多应用程序和软件将其集成到他们的工作流程中。一些产品已经集成了这项革命性的技术,例如Mercari及其MerchatAI购物助手。站长网2023-05-26 16:55:070000看完Claude 3创作的OpenAI连续剧,我都替马斯克委屈
有的企业官司缠身,有的企业“弯道超车”。3月4日,OpenAI最强竞争对手Anthropic发布Claude3,一夜之间成为“全球最强大模型”。有网友当即就按耐不住了,公开叫嚣OpenAI,“GPT-5呢?”、“Q*在哪里”、“Sora什么时候发布”,压力直接给到SamAltman。Sam你可以发布GPT5了站长网2024-03-07 15:18:480002