新微调方法LongLoRA可低成本提升LLM上下文理解能力
文章概要:
1. 长文本理解突破:MIT与香港中文大学合作研发出LongLoRA,一种优化方法,可提升大型预训练语言模型(LLM)的上下文理解能力,而无需大量计算资源。
2. 训练方法创新:研究人员采用稀疏本地关注与参数高效调优策略相结合的方法,显著降低了训练成本,同时保持性能。
3. 上下文长度的关键性:文章讨论了上下文长度对LLM性能的影响,强调了在某些情况下,上下文长度比模型参数数量更为重要。
近日,麻省理工学院(MIT)与香港中文大学联手开发了一项名为LongLoRA的新微调方法,为大型预训练语言模型(LLM)的发展提供了全新的途径。这一方法被设计用来增强LLM对上下文的理解能力,而无需过多的计算资源,为经济型超大LLM的构建铺平了道路。
LLM在自然语言处理领域发挥着巨大的作用,但通常需要巨大的计算资源来进行训练。文章指出,训练一个具有8192长度上下文的模型,相比于2048长度上下文,需要16倍的计算资源。而上下文长度实际上代表了LLM在回应给定提示时对整个上下文的清晰理解能力,这对于模型的性能至关重要。

图源备注:图片由AI生成,图片授权服务商Midjourney
LongLoRA方法的创新之处在于研究人员采用了两种关键方法来拓展LLM的上下文理解能力。首先,他们采用了稀疏本地关注,具体是“shift short attention(S2-Attn)”方法,通过这一方法在Fine-tuning过程中,高效地实现了上下文的拓展,同时保持了与标准关注机制相似的性能水平。
其次,研究人员重新审视了参数高效调优策略,发现结合可训练的嵌入和标准化方法的LoRA在上下文扩展方面非常有效。LongLoRA在多个任务中都获得了强大的实验结果,使用了LLaMA2模型,从7B/13B到70B不等。这一方法可以将模型的上下文从4k扩展到100k,适用于LLaMA27B,或者从32k扩展到LLaMA270B,而仅需要一台8× A100机器。值得注意的是,LongLoRA保持了原始模型架构,并与各种现有技术兼容。
为了提高LongLoRA方法的实用性,研究团队还创建了LongQA数据集,用于监督Fine-tuning,包括超过3,000个问题-答案对,其中包含了详细的上下文。
研究的关键发现包括对长序列语言建模的评估,研究发现,通过更长的上下文训练,模型的性能得到了提升,这显示了他们Fine-tuning方法的有效性。另外,研究还探讨了这些模型在单台机器上能够处理的最大上下文长度,发现即使在较小的上下文长度下,模型仍然表现出色。此外,研究还进行了基于检索的评估,测试了模型在寻找长对话中特定主题的任务中的表现,结果显示,这些模型在某些情况下甚至优于同类竞争模型,并且更高效地适应了开源数据。
最近的讨论中,关于LLaMA和Falcon等语言模型的性能已经开始超越了更大模型(如GPT-4或PaLM),焦点逐渐从增加模型参数数量转向了上下文令牌数量或上下文长度的考虑。文章还引用了一项研究,指出与常见误解相反,较长的输入文本并不总是导致更好的输出。实际上,在将较长的文章输入模型(例如2000字)时,模型通常只能理解前700-800字的内容,之后生成的回应可能会变得不太连贯。这一现象类似于人类记忆的工作方式,信息的开头和结尾通常比中间部分更容易被记住。
LongLoRA方法的推出为经济型超大LLM的发展提供了新的路径,通过优化上下文理解能力,降低了训练成本,有望推动自然语言处理领域的进一步发展。
国家金融监管总局:警惕AI新型技术诈骗风险
随着AI技术的广泛应用,一些不法分子也将其用于实施诈骗。近日,国家金融监督管理总局发布消费者权益保护风险提示,提醒广大公众警惕利用AI新型技术实施的两种诈骗手段“拟声”和“换脸”。“拟声”指利用AI技术合成他人声音,“换脸”是利用AI技术伪造他人脸部图像。这两种手段都可以制作出非常逼真的音频、视频和图片,用来冒充亲友或其他熟人,诱导受害人汇款或提供敏感信息。站长网2023-10-16 09:05:550000歌手也要失业了?suno v3 模型即将推出 人人皆可创作音乐
完蛋!歌手们的饭碗也要被AI砸了!SunoAI宣布,其最新的sunov3模型即将推出。从官方放出的音乐demo来看,V3模型的创作能力十分惊人。用户只需要简单的文字描述,就能创作出具备专业水准的音乐。官网地址:https://top.aibase.com/tool/suno-ai站长网2024-03-20 11:02:360000董宇辉卖书,跳出低价
1月23日晚,@与辉同行因一场直播在文学界倍受关注,直播中,“不喊321、只谈文学”的@与辉同行创造了一场文学界的奇迹,四个小时内,《人民文学》卖出近百万套,成交金额1785万,一度超过《人民文学》全年的销量。站长网2024-02-06 12:06:530000Finalframe即将推出适用于AI生成视频的剪辑界面
视频生成产品Finalframe即将推出适用于AI生成视频的剪辑界面。这种剪辑方式非常直观并且方便,每个视频生成产品都应该配一个类似的工具。这样基本就可以抛弃复杂的剪辑软件了。官网地址:https://top.aibase.com/tool/finalframe站长网2024-01-31 10:23:390000图灵奖得主Joseph Sifakis:机器“超智能”神话是假想,失业、安全防护才是真风险!
我不想特意去讨论计算机和人工智能所带来的可能性。它们能为人类带来的好处可谓数不胜数,而且大家都耳熟能详了。媒体也经常讨论计算机和人工智能给我们的生活、工作和学习方式带来的根本变化。流程和服务的自动化为人们带来了效率的优势。在没有直接人工干预的情况下,我们便能以最佳方式对能源、电信和运输等部门的资源进行“实时”控制,从而实现规模经济和质量经济。0000