Meta推大模型记忆增强方法MemWalker 靠prompt就能完成,无需额外训练
要点:
1. 研究团队开发了名为MemWalker的树形记忆策略,使大型语言模型能够突破窗口长度限制,实现长文本的阅读和回答问题,而无需额外训练。
2. MemWalker的工作原理分为记忆树构建和导航检索两个阶段,其中长文本被分割成小段,大模型对每段进行总结形成"叶子节点"和"非叶节点",非叶节点用于定位答案,叶子节点用于推理答案。
3. MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度,而且整个过程只依赖于prompt,不需要额外训练。
一项名为MemWalker的新技术,使大型语言模型能够克服其窗口长度的限制,从而可以处理更长的文本并回答相关问题,而无需进行额外的训练。这一技术的开发团队使用了一种树形记忆策略,该策略的工作原理包括两个主要阶段:记忆树构建和导航检索。

图源备注:图片由AI生成,图片授权服务商Midjourney
在记忆树构建阶段,长文本被分割成多个小段,每个小段都由大型语言模型进行总结,形成了"叶子节点"和"非叶节点"。这些叶子节点包含原始信息,而非叶节点只包含概括信息。非叶节点用于定位答案所在的叶子节点,而叶子节点用于推理出答案。整个过程是逐步的,从叶子节点到非叶节点,直到建立完整的树形结构。

论文地址:https://arxiv.org/abs/2310.05029
导航检索阶段涉及从根节点开始,逐一读取下一级子节点的内容,然后推理出是否继续前进或返回。这个过程一直持续,直到找到合适的叶子节点生成答案或达到最大步数。如果模型发现进入了错误的路径,还可以进行导航回退。此外,MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度。
重要的是,整个过程只依赖于prompt,不需要进行额外的训练。理论上,只要有足够的算力,MemWalker可以处理无限长的文本,但记忆树构建时的时间和空间复杂度会随着文本长度的增长呈指数型增加。这一技术的发展由普林斯顿大学NLP实验室的华人博士生Howard Chen领衔,得到了导师陈丹琦和Meta AI实验室的学者的参与。整个研究成果使大型语言模型在处理长文本方面迈出了重要一步。
中国首个AI厨王诞生,苦练7吨菜通过「图灵测试」!网友:机器人都比我会做饭
最近,一位AI炒菜机器人不仅向人类大厨发起了PK,而且还通过了「图灵测试」:根本吃不出来是AI机器人炒的!而在这背后,竟然是1.5个亿的投入和近7吨菜的训练。你敢相信么?机器人,正式和湘菜大厨「叫板」了!最近,这位名叫「美膳狮」的AI炒菜机器人,向湘菜大师杨孙师傅正式发起PK——桌子上同样摆着两份备好的食材,双方需要炒同样的三道菜:XO酱笋炒海螺,小炒黄牛肉,辣椒炒肉。站长网2024-07-11 14:13:310001微软推出ND H100v5虚拟机系列 配备8个英伟达H100芯片
微软推出了全新的NDH100v5虚拟机系列,该系列配备了最新的NVIDIAH100TensorCoreGPU和NVIDIAQuantum-2InfiniBand网络。这款虚拟机具有AI超级计算GPU、新一代CPU、低延迟网络、优化主机到GPU的性能以及大规模的内存和内存带宽等特性,能够提供无与伦比的计算能力。站长网2023-11-21 09:06:450000孟羽童个人简介是前500强董事长秘书 此前遭董明珠怒斥
12月14日,一则关于董明珠在格力电器2023届大学生入职仪式中怒斥孟羽童的视频引发热议,话题#董明珠怒斥孟羽童#迅速登上热搜。视频中,董明珠表示,当时在实习生节目中看中孟羽童的勤奋,选她做秘书。但在工作中,孟羽童的表现并未达到她的期望,反而只想借助格力平台成为网红,在公司产生了不良影响。站长网2023-12-15 10:15:020000雷军驾驶小米YU7参与冬测:表现不错 测试任务圆满完成
快科技2月8日消息,今日晚间,小米创办人雷军发文表示,他驾驶小米YU7参与了冬季高速长途的测试,主要测智能驾驶和续航等项目。早上6:10出发,晚9:10结束,15小时时间雷军开了1310公里,几乎全程高速,平均时速100km/h以上,路上最低温度-10℃,中间充电休息2次。雷军表示,小米YU7目前表现不错,我们圆满完成本次任务。站长网2025-02-10 05:11:190000月入几万,打工人才有“买车自由”?
小汪入手的别克微蓝,与同价位的其他车相比,续航和性能上具有一定竞争力,也可以多开几年。“原本落地要十二万,但算上朋友给到的优惠,首付款也就不到两万”,她认为买的很值。0000