Meta推大模型记忆增强方法MemWalker 靠prompt就能完成,无需额外训练
要点:
1. 研究团队开发了名为MemWalker的树形记忆策略,使大型语言模型能够突破窗口长度限制,实现长文本的阅读和回答问题,而无需额外训练。
2. MemWalker的工作原理分为记忆树构建和导航检索两个阶段,其中长文本被分割成小段,大模型对每段进行总结形成"叶子节点"和"非叶节点",非叶节点用于定位答案,叶子节点用于推理答案。
3. MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度,而且整个过程只依赖于prompt,不需要额外训练。
一项名为MemWalker的新技术,使大型语言模型能够克服其窗口长度的限制,从而可以处理更长的文本并回答相关问题,而无需进行额外的训练。这一技术的开发团队使用了一种树形记忆策略,该策略的工作原理包括两个主要阶段:记忆树构建和导航检索。
图源备注:图片由AI生成,图片授权服务商Midjourney
在记忆树构建阶段,长文本被分割成多个小段,每个小段都由大型语言模型进行总结,形成了"叶子节点"和"非叶节点"。这些叶子节点包含原始信息,而非叶节点只包含概括信息。非叶节点用于定位答案所在的叶子节点,而叶子节点用于推理出答案。整个过程是逐步的,从叶子节点到非叶节点,直到建立完整的树形结构。
论文地址:https://arxiv.org/abs/2310.05029
导航检索阶段涉及从根节点开始,逐一读取下一级子节点的内容,然后推理出是否继续前进或返回。这个过程一直持续,直到找到合适的叶子节点生成答案或达到最大步数。如果模型发现进入了错误的路径,还可以进行导航回退。此外,MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度。
重要的是,整个过程只依赖于prompt,不需要进行额外的训练。理论上,只要有足够的算力,MemWalker可以处理无限长的文本,但记忆树构建时的时间和空间复杂度会随着文本长度的增长呈指数型增加。这一技术的发展由普林斯顿大学NLP实验室的华人博士生Howard Chen领衔,得到了导师陈丹琦和Meta AI实验室的学者的参与。整个研究成果使大型语言模型在处理长文本方面迈出了重要一步。
极氪汽车在纽交所上市 创下新能源车企最快上市纪录
站长之家(ChinaZ.com)5月11日消息:极氪汽车昨晚正式在纽约证券交易所挂牌交易,股票代码为“ZK”,这标志着它成为继蔚来、理想和小鹏之后,第四家踏入美国资本市场的中国新能源汽车制造商。值得一提的是,从品牌发布到实现首次公开募股(IPO),极氪仅用了37个月,创下了新能源车企的最快上市纪录。站长网2024-05-11 11:35:230000大模型狂飙一整年后,2024年应关注哪些关键点?
2023年接近尾声,AI大模型的热度丝毫不减。谷歌刚宣布为开发人员提供新版Gemini大模型并承诺降低使用成本,微软就推出了拥有27亿参数的全新语言模型Phi-2。在头部巨头动作频频时,腰部玩家开始抱团,比如百奥几何与智谱AI开始共建自然语言-生命语言多模态大模型。0000和AI谈恋爱,掏空我钱包
今天是“520”,你会跟谁过节?你知道吗,已经有千万级别的用户拥有AI恋人了。提起AI恋人,不少人的第一印象是在2013年上映的电影《她》中,主人公西奥多爱上了人工智能系统创造出的虚拟助理莎曼莎,她的嗓音沙哑性感、性格善解人意。10年过去,剧情复刻进现实,越来越多年轻人和AI谈起了恋爱,在社交平台分享“人机之恋”的点滴日常。站长网2023-05-21 10:16:360000程序员撑过ChatGPT一周年!不仅没被取代,还把AI用得贼6:10分钟开发一个应用
不知不觉间,距离掀起全球新一轮AI革命的ChatGPT出道,已经过去一周年了。在这场颠覆性的AI革命中,许多企业和程序员们逐渐形成了一个共识:“不会用AI就将被淘汰”。为了避免“被淘汰”,这一年来众多企业和程序员全力拥抱AI、开发各种AI应用——连程序员自己都不禁要吐槽一句:“我们是为数不多喜欢革自己命的群体。”0000深度操作系统deepin官宣接入大模型
今日,深度操作系统deepin官方正式宣布接入大模型,实现多款自研应用软件的智能化升级。大模型的接入为deepin带来更多可能性,操作系统可以更好地理解用户行为,提升用户体验。通过接入大模型,deepin的通用大模型具有强大的语言理解和处理能力,可以为用户提供智能化的体验。站长网2023-09-21 17:11:180000