OpenAI 最新“神”操作:让 GPT-4 去解释 GPT-2 的行为!
由 ChatGPT 掀起的这场 AI 革命,令人们感慨神奇的同时,也不禁发出疑问:AI 究竟是怎么做到这一切的?
此前,即便是专业的数据科学家,都难以解释大模型(LLM)运作的背后。而最近,OpenAI 似乎做到了——本周二,OpenAI 发布了其最新研究:让 GPT-4去试着解释 GPT-2的行为。
即:让一个 AI “黑盒”去解释另一个 AI “黑盒”。
工作量太大,决定让 GPT-4去解释 GPT-2
OpenAI 之所以做这项研究的原因,在于近来人们对 AI 伦理与治理的担忧:“语言模型的能力越来越强,部署也越来越广泛,但我们对其内部工作方式的理解仍然非常有限。”
由于 AI 的“黑盒”性质,人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法,也难以区分其正确性,因而“可解释性”是亟待重要的一个问题。
AI 的发展很大程度上是在模仿人类,因而大模型和人脑一样,也由神经元组成,它会观察文本规律进而影响到输出结果。所以想要研究 AI 的“可解释性”,理论上要先了解大模型的各个神经元在做什么。
按理来说,这本应由人类手动检查,来弄清神经元所代表的数据特征——参数量少还算可行,可对于如今动辄百亿、千亿级参数的神经网络,这个工作量显然过于“离谱”了。
于是,OpenAI 灵机一动:或许,可以用“魔法”打败“魔法”?
“我们用 GPT-4为大型语言模型中的神经元行为自动编写解释,并为这些解释打分。”而 GPT-4首次解释的对象是 GPT-2,一个 OpenAI 发布于4年前、神经元数量超过30万个的开源大模型。
让 GPT-4“解释” GPT-2的原理
具体来说,让 GPT-4“解释” GPT-2的过程,整体分为三个步骤。
(1)首先,让 GPT-4生成解释,即给出一个 GPT-2神经元,向 GPT-4展示相关的文本序列和激活情况,产生一个对其行为的解释。
如上图所示,GPT-4对 GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。
(2)其次,再次使用 GPT-4,模拟被解释的神经元会做什么。下图即 GPT-4生成的模拟内容。
(3)最后,比较 GPT-4模拟神经元的结果与 GPT-2真实神经元的结果,根据匹配程度对 GPT-4的解释进行评分。在下图展示的示例中,GPT-4得分为0.34。
通过这样的方法,OpenAI 共让 GPT-4解释了 GPT-2中的307200个神经元,其中大多数解释的得分很低,只有超过1000个神经元的解释得分高于0.8。
在官博中,OpenAI承认目前 GPT-4生成的解释并不完美,尤其在解释比 GPT-2规模更大的模型时,效果更是不佳:“可能是因为后面的 layer 更难解释。”
尽管绝大多数解释的得分不高,但 OpenAI 认为,“即使 GPT-4给出的解释比人类差,但也还有改进的余地”,未来通过 ML 技术可提高 GPT-4的解释能力,并提出了三种提高解释得分的方法:
对解释进行迭代,通过让 GPT-4想出可能的反例,根据其激活情况修改解释来提高分数。
使用更大的模型来进行解释,平均得分也会上升。
调整被解释模型的结构,用不同的激活函数训练模型。
值得一提的是,以上这些解释数据集、可视化工具以及代码,OpenAI 都已在 GitHub 上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释,以及更好的工具来使用解释探索 GPT-2。”
(GitHub 地址:https://github.com/openai/automated-interpretability)
“再搞下去,AI 真的要觉醒了”
除此之外,OpenAI 还提到了目前他们采取的方法有很多局限性,未来需要一一攻克:
GPT-4给出的解释总是很简短,但神经元可能有着非常复杂的行为,不能简洁描述。
当前的方法只解释了神经元的行为,并没有涉及下游影响,希望最终能自动化找到并解释能实现复杂行为的整个神经回路。
只解释了神经元的行为,并没有解释产生这种行为的背后机制。
整个过程都是相当密集的计算,算力消耗很大。
在博文的最后,OpenAI 展望道:“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而,在这些技术能够揭露不诚实等行为之前,我们还有很长的路要走。”
对于 OpenAI 的这个研究成果,今日在国内外各大技术平台也引起了广泛关注。
有人在意其得分不佳:“对 GPT-2的解释都不行,就更不知道 GPT-3和 GPT-4内部发生了什么,但这才是许多人更关注的答案。”有人感慨 AI 进化的方式愈发先进:“未来就是用 AI 完善 AI 模型,会加速进化。”也有人担心 AI 进化的未来:“再搞下去,AI 真的要觉醒了。”
那么对此,你又有什么看法呢?
参考链接:
https://openai.com/research/language-models-can-explain-neurons-in-language-models
https://news.ycombinator.com/item?id=35877402
余承东官宣华为智选车首款纯电轿跑 搭载鸿蒙HarmonyOS 4
华为智选车业务的首款纯电轿跑即将问世,并将成为首个搭载HarmonyOS4的智选车。据华为余承东透露,这款纯电轿跑将采用颠覆性的设计语言,带来突破想象的轿跑体验。这款纯电轿跑由华为和奇瑞联合打造,新品牌名为Luxeed。站长网2023-08-07 11:09:580000711便利店宣布在日本市场大规模应用AI分析数据、策划新品等
据国外媒体报道,711便利店最近宣布,明年起将在日本市场大规模引入生成式AI,用于分析销售数据、策划新商品、制作广告素材等。在引入AI之前,711需要通过多次会议讨论和消费者调查,才能推出新品,整个过程需要10个月。为加快开发速度,该公司建立了自己的云端AI系统。站长网2023-11-27 15:49:210001实时语音变换器Supertone Shift 可将实时变化直播说话声音
SupertoneShift是一款创新的实时语音变换技术产品,它允许用户即时切换到任选的声音,为虚拟主播(VTubers)、内容创作者、游戏玩家以及希望准确表达角色声音的用户提供了强大的支持。官网:https://product.supertone.ai/shift主要功能站长网2024-05-06 21:09:230000AI视野:Adobe发布新一代AI生成模型Firefly Image2;Meta发布Llama2-Long模型;TikTok支持从AI应用直接发布内容;Opera浏览器推出升级版的AI工具Aria
🤖📈💻💡大模型动态Adobe发布新一代AI生成模型FireflyImage2,PSAI生图一步完成今天凌晨,Adobe甩出AdobeFirefly创意生成式AI模型系列中的三个主要新模型:AdobeFireflyImage2(萤火虫二代成像模型)、FireflyVectorModel(萤火虫矢量模型)和FireflyDesignModel(萤火虫设计模型)。站长网2023-10-11 19:26:260001开源AI搜索平台Swirl 支持Microsoft 365集成
Swirl是一个开源的元搜索平台,可以无缝地连接数据库、数据仓库、搜索引擎以及数据间隙。它能让您深入挖掘隐藏的见解,并且轻松探索您的数据。不管您是创业公司还是大型企业,Swirl都能够根据您的需求进行定制。项目地址:https://github.com/swirlai/swirl-search站长网2023-09-12 10:55:000001