基于 Transformer 的大模型如何从参数中提取知识
站长网2023-07-26 15:01:190阅
最近一项由 Google DeepMind、特拉维夫大学和 Google 研究人员进行的研究,旨在探究基于 Transformer 的大型语言模型(LLMs)如何存储和提取事实关联。研究采用信息流的方法,研究模型如何预测正确的属性,并观察模型在不同层次中的内部表示是如何演变的。

论文地址:https://arxiv.org/abs/2304.14767
研究发现,模型的关键计算点与关系和主体位置有关。研究人员使用 "阻塞" 策略,阻止最后一个位置在特定层次上与其他位置产生关联,并观察推理过程中的影响。通过分析这些关键点和前面的表示构建过程,研究人员进一步确定了属性提取发生的位置。
研究人员发现了一种基于主体丰富过程和属性提取操作的内部机制。在模型的早期层次中,关于主体的信息在最后一个主体标记中得到丰富,而关系则传递给最后一个标记。最后一个标记使用关系通过自注意力机制从主体表示中提取相应的属性。
这些发现揭示了 LLMs 内部如何存储和提取事实关联的机制。研究人员认为,这些发现可以为知识定位和模型编辑开辟新的研究方向。例如,可以利用这种方法来确定 LLMs 获取和存储偏见信息的内部机制,并开发缓解这种偏见的方法。
总之,这项研究强调了研究 Transformer 模型如何存储和提取事实关联的内部机制的重要性。通过了解这些机制,研究人员可以开发更有效的方法来提高模型性能并减少偏见。此外,这种方法还可以应用于其他自然语言处理领域,如情感分析和语言翻译,以更好地理解这些模型的内部运作。
0000
评论列表
共(0)条相关推荐
被误解的「中文版Sora」背后,字节跳动有哪些技术?
2024开年,OpenAI就在生成式AI领域扔下了重磅炸弹:Sora。这几年,视频生成领域的技术迭代持续加速,很多科技公司也公布了相关技术进展和落地成果。在此之前,Pika、Runway都曾推出过类似产品,但Sora放出的Demo,显然以一己之力抬高了视频生成领域的标准。在今后的这场竞争中,哪家公司将率先打造出超越Sora的产品,仍是未知数。站长网2024-03-13 18:16:290000股神巴菲特:去世后99%以上财富将捐给慈善事业
快科技11月26日消息,据国内媒体报道,股神巴菲特在本周发布的致股东信中,透露了他对于今后的财产安排。巴菲特表示:我现在感觉很好,但是完全意识到我正在打一场加时赛”,在自己去世之后,所有资产的处置也会公开。他不会通过信托或是外国实体来避免公众监督,只会有一份简单的遗嘱,同时,他向股东们再次承诺,他99%以上的财富将捐献给慈善事业。0000英伟达有望保持在 AI 芯片领域占据的主导地位
英伟达主导了人工智能(AI)半导体行业,其股价在今年大幅上涨。花旗分析师认为,由于数据中心投资不断增加,以及其与市场上其他竞争对手相比的竞争优势,英伟达的地位将进一步加强。英伟达的成功主要归功于其在开发AI芯片方面的专业知识。这些芯片专门设计用于处理AI应用所需的复杂数学计算。随着AI技术的不断发展,对这些专用芯片的需求预计将大幅增长。站长网2023-07-19 07:57:400000史上最强小米手环来了!小米手环9正式公布:升级金属机身 多种腕带可选
快科技7月16日消息,今日小米宣布,小米手环9将于7月19日19点2024雷军年度演讲期间正式发布。据悉,小米手环9全新升级金属机身,同时智能体验也有全面升级。从预热海报来看,小米手环9提供了多款款式、颜色的腕带可供选择,包括橡胶带、金属带以及皮质带等,个性化进一步提升。此前,小米手环9已经通过多家机构认证,距离发布仅剩一步之遥。站长网2024-07-16 10:57:500001消息称作业帮正在内测基于中国市场的教育大模型
据36氪报道,目前作业帮正在进行基于中国市场的教育大模型的内测。这个模型涵盖了多学科解题、中英文作文批改、多语言对话等多个教育应用场景,包括工具类App、智能硬件和图书等业务。作业帮方面透露,教育场景中综合能力表现已经超出预期水平。站长网2023-06-05 23:57:150000