Meta推大模型记忆增强方法MemWalker 靠prompt就能完成,无需额外训练
要点:
1. 研究团队开发了名为MemWalker的树形记忆策略,使大型语言模型能够突破窗口长度限制,实现长文本的阅读和回答问题,而无需额外训练。
2. MemWalker的工作原理分为记忆树构建和导航检索两个阶段,其中长文本被分割成小段,大模型对每段进行总结形成"叶子节点"和"非叶节点",非叶节点用于定位答案,叶子节点用于推理答案。
3. MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度,而且整个过程只依赖于prompt,不需要额外训练。
一项名为MemWalker的新技术,使大型语言模型能够克服其窗口长度的限制,从而可以处理更长的文本并回答相关问题,而无需进行额外的训练。这一技术的开发团队使用了一种树形记忆策略,该策略的工作原理包括两个主要阶段:记忆树构建和导航检索。

图源备注:图片由AI生成,图片授权服务商Midjourney
在记忆树构建阶段,长文本被分割成多个小段,每个小段都由大型语言模型进行总结,形成了"叶子节点"和"非叶节点"。这些叶子节点包含原始信息,而非叶节点只包含概括信息。非叶节点用于定位答案所在的叶子节点,而叶子节点用于推理出答案。整个过程是逐步的,从叶子节点到非叶节点,直到建立完整的树形结构。

论文地址:https://arxiv.org/abs/2310.05029
导航检索阶段涉及从根节点开始,逐一读取下一级子节点的内容,然后推理出是否继续前进或返回。这个过程一直持续,直到找到合适的叶子节点生成答案或达到最大步数。如果模型发现进入了错误的路径,还可以进行导航回退。此外,MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度。
重要的是,整个过程只依赖于prompt,不需要进行额外的训练。理论上,只要有足够的算力,MemWalker可以处理无限长的文本,但记忆树构建时的时间和空间复杂度会随着文本长度的增长呈指数型增加。这一技术的发展由普林斯顿大学NLP实验室的华人博士生Howard Chen领衔,得到了导师陈丹琦和Meta AI实验室的学者的参与。整个研究成果使大型语言模型在处理长文本方面迈出了重要一步。
现在公众号插入小店图片可获推荐!
近日微信小店与公众号的打通迎来了新流量激励。现在,在订阅号顶部的工具栏「小店商品」中添加已关联的微信小店商品图片,发布小店相关商品图片即可能获得平台推荐。图片样式如下:在官方发布的《公众号小店商品功能使用规范》中提到,是否能被推荐取决于多项因素(包括是否符合规范的要求等)。如想要查阅是否已实际获得推荐,可通过微信公众号后台的“内容分析-单篇群发”,查看到关于内容推荐情况的详细数据。站长网2024-10-04 14:44:290000浙大研究团队推新AI框架Human101:单视角视频构就能重建3D数字人
划重点:🚀创新技术:Human101采用3D高斯散点技术,在仅一视角视频中以100秒训练时间生成动态、高保真的3D数字人体模型。🎮实时渲染:以100FPS的速度进行渲染,相较于先前方法实现更快速的渲染速度,提供可比较或更优渲染质量。💻开源项目:Human101将代码和演示发布于GitHub,为实时交互应用和沉浸式虚拟现实体验提供了可行性。站长网2023-12-29 17:03:450000百度文心一格联合京东618 打造电商行业首个AI线下广告
据百度官方消息,今年618期间,京东联合百度文心一格,将AIGC应用于电商营销,进行了首次大规模线下广告尝试,打造电商行业首个AI线下广告。在此次京东与百度的合作中,京东营销团队尝试通过对人物特性的不同描述,生成差异化的海报效果,并发现文心一格可以更精准地表达出营销物料需要达到的夸张人物效果。站长网2023-06-15 10:37:000000研究表明,开源语言模型无法与 GPT-4 相提并论
开源语言模型的进步是无可争议的。但它们真的能与来自OpenAI、谷歌和其他公司的训练有素的语言模型竞争吗?诸如之前所报道的,使用AlpacaFormula训练的开源语言模型几乎不需要怎么训练以及很低的成本就能达到了类似于ChatGPT的水平。站长网2023-05-29 10:10:080000AI+视频娱乐平台大盘点,谁会成为下一个“Netflix”
故事,是对现实的剖析和重构。讲好一个故事,需要创造性地把素材组织起来。在AI时代,一个好的故事又将如何被呈现出来呢?今年,是视频生成类产品爆发式增长的一年。在AI生成的视频中,我们看到创作者在用一种新的方式讲述着自己的故事。同样,AI视频内容是通过新的创作方式诞生的新娱乐内容形态,有可能诞生2C平台级的机会。站长网2024-07-30 14:35:260000