OpenAI 最新“神”操作：让 GPT-4 去解释 GPT-2 的行为！

站长网2023-05-11 11:05:440阅

由 ChatGPT 掀起的这场 AI 革命，令人们感慨神奇的同时，也不禁发出疑问:AI 究竟是怎么做到这一切的?

此前，即便是专业的数据科学家，都难以解释大模型（LLM）运作的背后。而最近，OpenAI 似乎做到了——本周二，OpenAI 发布了其最新研究:让 GPT-4去试着解释 GPT-2的行为。

即:让一个 AI “黑盒”去解释另一个 AI “黑盒”。

工作量太大，决定让 GPT-4去解释 GPT-2

OpenAI 之所以做这项研究的原因，在于近来人们对 AI 伦理与治理的担忧:“语言模型的能力越来越强，部署也越来越广泛，但我们对其内部工作方式的理解仍然非常有限。”

由于 AI 的“黑盒”性质，人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法，也难以区分其正确性，因而“可解释性”是亟待重要的一个问题。

AI 的发展很大程度上是在模仿人类，因而大模型和人脑一样，也由神经元组成，它会观察文本规律进而影响到输出结果。所以想要研究 AI 的“可解释性”，理论上要先了解大模型的各个神经元在做什么。

按理来说，这本应由人类手动检查，来弄清神经元所代表的数据特征——参数量少还算可行，可对于如今动辄百亿、千亿级参数的神经网络，这个工作量显然过于“离谱”了。

于是，OpenAI 灵机一动:或许，可以用“魔法”打败“魔法”?

“我们用 GPT-4为大型语言模型中的神经元行为自动编写解释，并为这些解释打分。”而 GPT-4首次解释的对象是 GPT-2，一个 OpenAI 发布于4年前、神经元数量超过30万个的开源大模型。

让 GPT-4“解释” GPT-2的原理

具体来说，让 GPT-4“解释” GPT-2的过程，整体分为三个步骤。

（1）首先，让 GPT-4生成解释，即给出一个 GPT-2神经元，向 GPT-4展示相关的文本序列和激活情况，产生一个对其行为的解释。

如上图所示，GPT-4对 GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。

（2）其次，再次使用 GPT-4，模拟被解释的神经元会做什么。下图即 GPT-4生成的模拟内容。

（3）最后，比较 GPT-4模拟神经元的结果与 GPT-2真实神经元的结果，根据匹配程度对 GPT-4的解释进行评分。在下图展示的示例中，GPT-4得分为0.34。

通过这样的方法，OpenAI 共让 GPT-4解释了 GPT-2中的307200个神经元，其中大多数解释的得分很低，只有超过1000个神经元的解释得分高于0.8。

在官博中，OpenAI承认目前 GPT-4生成的解释并不完美，尤其在解释比 GPT-2规模更大的模型时，效果更是不佳:“可能是因为后面的 layer 更难解释。”

尽管绝大多数解释的得分不高，但 OpenAI 认为，“即使 GPT-4给出的解释比人类差，但也还有改进的余地”，未来通过 ML 技术可提高 GPT-4的解释能力，并提出了三种提高解释得分的方法:

对解释进行迭代，通过让 GPT-4想出可能的反例，根据其激活情况修改解释来提高分数。

使用更大的模型来进行解释，平均得分也会上升。

调整被解释模型的结构，用不同的激活函数训练模型。

值得一提的是，以上这些解释数据集、可视化工具以及代码，OpenAI 都已在 GitHub 上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释，以及更好的工具来使用解释探索 GPT-2。”

（GitHub 地址:https://github.com/openai/automated-interpretability）

“再搞下去，AI 真的要觉醒了”

除此之外，OpenAI 还提到了目前他们采取的方法有很多局限性，未来需要一一攻克:

GPT-4给出的解释总是很简短，但神经元可能有着非常复杂的行为，不能简洁描述。

当前的方法只解释了神经元的行为，并没有涉及下游影响，希望最终能自动化找到并解释能实现复杂行为的整个神经回路。

只解释了神经元的行为，并没有解释产生这种行为的背后机制。

整个过程都是相当密集的计算，算力消耗很大。

在博文的最后，OpenAI 展望道:“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而，在这些技术能够揭露不诚实等行为之前，我们还有很长的路要走。”

对于 OpenAI 的这个研究成果，今日在国内外各大技术平台也引起了广泛关注。

有人在意其得分不佳:“对 GPT-2的解释都不行，就更不知道 GPT-3和 GPT-4内部发生了什么，但这才是许多人更关注的答案。”有人感慨 AI 进化的方式愈发先进:“未来就是用 AI 完善 AI 模型，会加速进化。”也有人担心 AI 进化的未来:“再搞下去，AI 真的要觉醒了。”

那么对此，你又有什么看法呢?

参考链接:

https://openai.com/research/language-models-can-explain-neurons-in-language-models

https://news.ycombinator.com/item?id=35877402

OpenAI最新神操作让 GPT4 去解释GPT2 的行为

0000

评论列表

共(0)条

相关推荐

站长资讯
鸿蒙系统再次突破，份额提升至8%，这才是华为回归的关键
鸿蒙系统一直都是谈论话题最高的热度之一，现在的华为手机最大的优势是鸿蒙，好多朋友选择华为也是因为鸿蒙，鸿蒙也是华为区别于国产手机的最大亮点。同时鸿蒙系统也被很多人认为是国产手机的崛起点之一，是华为最大的自研技术优势所在。一直以来在手机市场，除了安卓系统之外就是苹果的iOS，这也是苹果能够一直站在最高点的原因，所以鸿蒙到到来让更多人看到了国产手机的未来。
站长网2023-05-25 06:18:49
0000
站长资讯
AI日报：Luma AI文生视频模型炸裂程度堪比Sora；Stable diffusion 3 正式开源；Suno正式发布音频输入功能；阿里发布“融图”工具MimicBrush
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、LumaAI推重磅级文生视频模型DreamMachine炸裂程度堪比Sora
站长网2024-06-14 17:45:23
0001
站长资讯
小冰首批网红明星AI克隆人提前上线能视频电话还能替你工作
你还记得之前小冰公司发布的克隆人计划吗?现在，小冰的第一批网红明星AI克隆人已经正式上线。从半藏森林的克隆人来看，目前的克隆人已经可以做到容貌和声音与真人无异，而且还可以秒回消息、打视频电话聊天。此外，你还可以切换到更聪明的“超级模式”，让她替你工作。据小冰公司介绍，打造这样一个克隆人只需要3分钟。需要注意的是，虽然克隆人的声音可以和真人无异，但说话的语速会稍慢一些，仍然可以辨别出真假。
站长网2023-06-02 16:05:45
0000
站长资讯
英伟达推AI游戏助手G-Assist：可指导玩家玩游戏并优化设置
划重点:⭐G-Assist是英伟达的游戏AI助手，可指导玩家完成游戏并配置最佳设置。⭐该助手可以通过语音查询回答游戏中的问题，并根据屏幕上的情况进行个性化指导。⭐不仅可以优化和调整PC设置，还可以为游戏性能提出建议，并甚至超频GPU。
站长网2024-06-03 13:21:03
0000
站长资讯
iPhone15系列新机全曝光，iPhone 14跌至大米价上演砸场闹剧
苹果公司的iphone系列一直以来都是全球最受欢迎的智能手机之一。然而，苹果公司一直以来也是一个保持创新的公司，他们不断探索新的设计理念，以保持在竞争激烈的市场中的领先地位。最近发布的iphone15不仅仅只是一个小的改进，它带来了一些重大的变革。这次改动，取消了静音按键和音量按键，采用了无法按动的固态设计，并且内置的TapticEngine马达震动反馈会模拟按压手感。
站长网2023-05-23 11:41:11
0000