基于 Transformer 的大模型如何从参数中提取知识
站长网2023-07-26 15:01:190阅
最近一项由 Google DeepMind、特拉维夫大学和 Google 研究人员进行的研究,旨在探究基于 Transformer 的大型语言模型(LLMs)如何存储和提取事实关联。研究采用信息流的方法,研究模型如何预测正确的属性,并观察模型在不同层次中的内部表示是如何演变的。
论文地址:https://arxiv.org/abs/2304.14767
研究发现,模型的关键计算点与关系和主体位置有关。研究人员使用 "阻塞" 策略,阻止最后一个位置在特定层次上与其他位置产生关联,并观察推理过程中的影响。通过分析这些关键点和前面的表示构建过程,研究人员进一步确定了属性提取发生的位置。
研究人员发现了一种基于主体丰富过程和属性提取操作的内部机制。在模型的早期层次中,关于主体的信息在最后一个主体标记中得到丰富,而关系则传递给最后一个标记。最后一个标记使用关系通过自注意力机制从主体表示中提取相应的属性。
这些发现揭示了 LLMs 内部如何存储和提取事实关联的机制。研究人员认为,这些发现可以为知识定位和模型编辑开辟新的研究方向。例如,可以利用这种方法来确定 LLMs 获取和存储偏见信息的内部机制,并开发缓解这种偏见的方法。
总之,这项研究强调了研究 Transformer 模型如何存储和提取事实关联的内部机制的重要性。通过了解这些机制,研究人员可以开发更有效的方法来提高模型性能并减少偏见。此外,这种方法还可以应用于其他自然语言处理领域,如情感分析和语言翻译,以更好地理解这些模型的内部运作。
0000
评论列表
共(0)条相关推荐
八部门:加快 IPv6 基础设施升级演进发展
据工信部官网,工业和信息化部等八部门发布关于推进IPv6技术演进和应用创新发展的实施意见,其中提到,加快网络基础设施升级演进。基础电信企业面向行业数字化转型需求,加快骨干网、城域网、5G网络升级改造,基于分段路由、网络切片、随流检测、应用感知网络、服务功能链(SFC)等技术,提升企业专线、家庭宽带、移动终端等业务服务能力。站长网2023-04-23 14:22:210000马斯克已抵达北京!寻求全自动驾驶落地中国
快科技4月28日消息,埃隆·马斯克的私人飞机湾流G550已于今天下午14时抵达北京首都国际机场,开始了对中国的“令人意外的访问”。马斯克此次中国行没有事先公开,也不知道为何而来,央视称是应中国贸促会的邀请而来。有外媒援引知情人士的话称,马斯克正在寻求在北京与中国高层官员会面,讨论在中国获得批准推出全自动驾驶(FSD)软件。0000AI图表生成工具Mymap 支持一键生成各种图表
信息轰炸时代,MyMapAI以其独特的功能成为解决思维难题和信息整理的得力工具。这款在线AI工具不仅仅限于心智图的生成,还支持多种图表类型,为用户提供了更广泛的应用场景。体验地址:https://top.aibase.com/tool/mymap站长网2023-12-11 10:55:170005国产单机《完蛋!我被美女包围了!》爆火出圈!Steam口碑上涨好评如潮
11月1日消息,最近,国产真人模拟恋爱互动游戏《完蛋!我被美女包围了!》爆火出圈,游戏直播、游戏片段在短视频平台受到网友关注。自10月18日上线Steam平台以来,《完蛋!我被美女包围了!》好评率持续上涨。截稿前,本作在Steam商店已达到好评如潮”,好评率高达95%,收录15120条评价。据了解,《完蛋!我被美女包围了!》近日还被新华社的新华财经转发报道。站长网2023-11-01 20:49:400001辛巴泰国带货8亿,头部主播卷向海外
辛巴泰国带货8亿一向做人做事都高调的辛巴,这次前往泰国带货,同样声势浩大。5月7日,辛巴和一众徒弟现身泰国曼谷,在泰国的户外文化遗产博物园暹罗古城开启直播带货。从当天的直播表现来看,辛巴保持着自己一贯的高调风格,喊出“泰国特产”、“最低价”、“当场改价”等话术,全程情绪激昂,讲解产品十分卖力。据悉,这场直播开播两分钟,在线观看破百万观看。站长网2023-05-11 09:02:500002