Meta推大模型记忆增强方法MemWalker 靠prompt就能完成,无需额外训练
要点:
1. 研究团队开发了名为MemWalker的树形记忆策略,使大型语言模型能够突破窗口长度限制,实现长文本的阅读和回答问题,而无需额外训练。
2. MemWalker的工作原理分为记忆树构建和导航检索两个阶段,其中长文本被分割成小段,大模型对每段进行总结形成"叶子节点"和"非叶节点",非叶节点用于定位答案,叶子节点用于推理答案。
3. MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度,而且整个过程只依赖于prompt,不需要额外训练。
一项名为MemWalker的新技术,使大型语言模型能够克服其窗口长度的限制,从而可以处理更长的文本并回答相关问题,而无需进行额外的训练。这一技术的开发团队使用了一种树形记忆策略,该策略的工作原理包括两个主要阶段:记忆树构建和导航检索。
图源备注:图片由AI生成,图片授权服务商Midjourney
在记忆树构建阶段,长文本被分割成多个小段,每个小段都由大型语言模型进行总结,形成了"叶子节点"和"非叶节点"。这些叶子节点包含原始信息,而非叶节点只包含概括信息。非叶节点用于定位答案所在的叶子节点,而叶子节点用于推理出答案。整个过程是逐步的,从叶子节点到非叶节点,直到建立完整的树形结构。
论文地址:https://arxiv.org/abs/2310.05029
导航检索阶段涉及从根节点开始,逐一读取下一级子节点的内容,然后推理出是否继续前进或返回。这个过程一直持续,直到找到合适的叶子节点生成答案或达到最大步数。如果模型发现进入了错误的路径,还可以进行导航回退。此外,MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度。
重要的是,整个过程只依赖于prompt,不需要进行额外的训练。理论上,只要有足够的算力,MemWalker可以处理无限长的文本,但记忆树构建时的时间和空间复杂度会随着文本长度的增长呈指数型增加。这一技术的发展由普林斯顿大学NLP实验室的华人博士生Howard Chen领衔,得到了导师陈丹琦和Meta AI实验室的学者的参与。整个研究成果使大型语言模型在处理长文本方面迈出了重要一步。
谷歌推出 AI 英语对话练习功能
划重点:🎙️谷歌推出AI语音对话练习功能,让用户可以通过手机与对话机器人进行英语会话练习。🌐目前该功能仅限于部分国家的用户使用,但谷歌可能会将其扩展到更多国家。💬虽然谷歌的语言学习工具缺乏像Duolingo等应用那样的课程设置,但它提供了对话练习和反馈功能。站长网2024-04-28 20:50:030001AIGC音乐的中场战事:从技术、产品到商业规则
最近,谷歌围绕着AIGC音乐打出了一套“组合拳”。11月16日,谷歌旗下DeepMind发布了最新的AIGC音乐生成模型Lyria,并与YouTube合作打造了两个重要应用场景:DreamTrack和MusicAItools。同时,谷歌和YouTube还将AI识别工具SynthID扩展到音乐领域,为Lyria生成的AI作品打上水印。站长网2023-11-23 15:37:030000OpenAI联合创始人:GPT-4性能在 “有限的数据量” 下面临挑战
划重点:🔹OpenAI的JohnSchulman对GPT-4的性能进行了评估,指出其面临有限训练数据的挑战。🔹Schulman提到了GPT-4在不同类型的预训练数据上泛化的挑战,以及大型模型在使用较少数据量时的效率优势。🔹OpenAICEOSamAltman的言论和公司对人工智能发展的雄心也是该报道的重要内容。站长网2024-05-16 17:24:060000AI视野:谷歌Gemini Pro开放;文心一言插件商城上线;谷歌图像生成模型Imagen2发布;阿里推虚拟试穿技术Outfit Anyone
📰🤖📢AI新鲜事谷歌GeminiPro开放谷歌GeminiPro大模型在研究基准测试中表现优异,支持32K上下文窗口的文本输入和生成功能,向VertexAI云计算客户和AIStudio开发人员开放,提供多种功能和SDK,为构建AI应用程序提供更多可能性。【AiBase提要:】站长网2023-12-14 15:37:080000