Meta推大模型记忆增强方法MemWalker 靠prompt就能完成,无需额外训练
要点:
1. 研究团队开发了名为MemWalker的树形记忆策略,使大型语言模型能够突破窗口长度限制,实现长文本的阅读和回答问题,而无需额外训练。
2. MemWalker的工作原理分为记忆树构建和导航检索两个阶段,其中长文本被分割成小段,大模型对每段进行总结形成"叶子节点"和"非叶节点",非叶节点用于定位答案,叶子节点用于推理答案。
3. MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度,而且整个过程只依赖于prompt,不需要额外训练。
一项名为MemWalker的新技术,使大型语言模型能够克服其窗口长度的限制,从而可以处理更长的文本并回答相关问题,而无需进行额外的训练。这一技术的开发团队使用了一种树形记忆策略,该策略的工作原理包括两个主要阶段:记忆树构建和导航检索。
图源备注:图片由AI生成,图片授权服务商Midjourney
在记忆树构建阶段,长文本被分割成多个小段,每个小段都由大型语言模型进行总结,形成了"叶子节点"和"非叶节点"。这些叶子节点包含原始信息,而非叶节点只包含概括信息。非叶节点用于定位答案所在的叶子节点,而叶子节点用于推理出答案。整个过程是逐步的,从叶子节点到非叶节点,直到建立完整的树形结构。
论文地址:https://arxiv.org/abs/2310.05029
导航检索阶段涉及从根节点开始,逐一读取下一级子节点的内容,然后推理出是否继续前进或返回。这个过程一直持续,直到找到合适的叶子节点生成答案或达到最大步数。如果模型发现进入了错误的路径,还可以进行导航回退。此外,MemWalker还引入了工作记忆机制,将已经访问的节点内容加入到当前内容的上下文中,以提高准确度。
重要的是,整个过程只依赖于prompt,不需要进行额外的训练。理论上,只要有足够的算力,MemWalker可以处理无限长的文本,但记忆树构建时的时间和空间复杂度会随着文本长度的增长呈指数型增加。这一技术的发展由普林斯顿大学NLP实验室的华人博士生Howard Chen领衔,得到了导师陈丹琦和Meta AI实验室的学者的参与。整个研究成果使大型语言模型在处理长文本方面迈出了重要一步。
苹果官网罕见大降价 华为回应苹果促销:称暂无促销计划
站长之家(ChinaZ.com)1月16日消息:近日,苹果中国官网宣布将在1月18日至21日期间进行“迎新春限时优惠”活动,其中iPhone15系列4款机型降价500元,部分笔记本电脑产品最高降价800元。这一举措引起了业界的广泛关注。然而,与苹果的降价策略不同,华为却表示目前暂无促销计划。在销售人员看来,华为手机目前一机难求,正常销售都供不应求,更别提降价促销了。站长网2024-01-16 10:55:490000看完Claude 3创作的OpenAI连续剧,我都替马斯克委屈
有的企业官司缠身,有的企业“弯道超车”。3月4日,OpenAI最强竞争对手Anthropic发布Claude3,一夜之间成为“全球最强大模型”。有网友当即就按耐不住了,公开叫嚣OpenAI,“GPT-5呢?”、“Q*在哪里”、“Sora什么时候发布”,压力直接给到SamAltman。Sam你可以发布GPT5了站长网2024-03-07 15:18:480001斗鱼一哥“旭旭宝宝”跳槽抖音 昨晚首秀涨粉350万
昨晚20:00,曾经的斗鱼一哥、《DNF》游戏主播旭旭宝宝(本名任怡旭)在抖音开启直播首秀。开播前,其抖音粉丝500多万,截至发稿粉丝已经高达876万,涨粉超350万。观看人数10万,点赞量破5亿,人气全抖音第一。资料显示,旭旭宝宝”曾是地下城与勇士(DNF)项目电子竞技选手,曾于龙珠直播平台直播三年,2018年7月10日解约。于2018年7月16日正式加入斗鱼。站长网2023-08-19 15:37:5300010官方允许!英国法官以后可以用ChatGPT写裁决书了
要点:1.英国允许法官使用ChatGPT写裁决书,并公布官方指南。2.官方指南详细描述了ChatGPT的正确使用方法、潜在风险及示例,适用于司法机构的所有官员、员工。3.使用ChatGPT等生成式AI需注意避免处理或生成未知内容,以及使用特定法律数据微调的权威生成式AI产品。站长网2023-12-26 09:18:000000免费与付费,谁才是短剧商业模式的最优解
随着短视频的兴起,在用户时间碎片化、各平台加码推动,以及创作模式灵活的基础上,节奏更快、爽感更强的微短剧近年来也迎来了爆发。以至于快手娱乐业务负责人陈弋弋,也用上了“忽如一夜春风来”来形容微短剧的这一变化。站长网2023-05-20 10:46:200001