OpenAI开发新工具,试图解释大语言模型的行为
在很多人看来,与OpenAI 的 ChatGPT类似的大型语言模型 (LLM)就像一个黑匣子,因为即使对于数据科学家来说,也很难知道为什么这些模型总是以自己的方式做出反应,就像凭空捏造事实一样。
为了能够剖析 LLM 的的行为,OpenAI 正在开发一种工具来自动识别 LLM 的哪些部分对其行为负责。简单的说,OpenAI在最新的发布成果中,展示了用 GPT-4解释 GPT-2的行为,获得了初步的成果。
OpenAI开发的工具通过调用 GPT-4来计算出其他架构更简单的语言模型上神经元的行为。该工具会为 LLM 中的每个神经元生成解释,这些解释被编译到与工具代码一起发布的数据集中。
大模型(LLM)和人脑一样,由「神经元」组成,这些神经元会观察文本中的特定规律,进而影响到模型本身生产的文本。
比如有一个针对「漫威超级英雄」的神经元,当用户向模型提问「哪个超级英雄的能力最强」时,这个神经元就会提高模型在回答中说出漫威英雄的概率。开始之前,先让 GPT-2运行文本序列,等待某个特定神经元被频繁「激活」的情况。
OpenAI 开发的工具利用这种规则将模型进行分解。
首先,让 GPT-4针对这段文本,生成解释。比如在下面的案例中,神经元主要针对漫威内容。GPT-4接收到文本和激活情况后,判断这与电影、角色和娱乐有关。接着,用 GPT-4模拟这个 GPT-2的神经元接下来会做什么,并用GPT-4生成的模拟内容。最后,进行对比评估。对比4代模拟神经元和2代真实神经元的结果,看 GPT-4猜的有多准。为了确定解释的准确性,该工具为 GPT-4提供了文本序列,并让它预测或模拟神经元的行为方式。然后将模拟神经元的行为与实际神经元的行为进行比较。
通过这样的方法,OpenAI 对每个神经元的行为作出了初步的自然语言解释,并对这种解释和实际行为的匹配程度进行了评分。
研究人员已经对 GPT-2中的所有307,200个神经元生成解释,并将这些解释汇编成数据集,与工具代码一起在 GitHub 上发布。
它背后的工程师强调它还处于早期阶段,但其运行代码已经可以在 GitHub 上以开源方式获得。OpenAI 的工具可以帮助研究人员更好地理解 LLM 的行为,从而提高性能并减少偏差或毒性。
也有人质疑,该工具本质上是为 GPT-4做广告,因为它需要 GPT-4才能工作。其他解释 LLM 工具较少依赖商业 API,例如 DeepMind 的Tracr。
3D版Midjourney来了?Luma AI发布Genie 1.0,生成手办只需10秒
文生3D模型又来新玩家。随着生成式AI的浪潮席卷而来,科技公司都在冲击AIGC的下一个突破口——3D生成。目前,文生3D在学术界取得了许多新突破。在产业界,无论是像英伟达这样的行业巨头,还是像StabilityAI这样的中坚力量,都推出了自己的文生3D工具。虽然3D生成领域一直「卷」到飞起,但是好像一直没有出现一款效果足够惊艳,生成速度足够快的代表性产品。0004AI成龙虽被群嘲,但未来AI依然可能取代演员
电影《传说》顶着成龙的名号,上映7天票房却只有7279万,豆瓣评分更是低至5.4,延续了成龙近些年来的烂片成绩。而27岁的AI成龙,这个曾经被片方当作噱头来吸引观众入场的技术亮点,也成为了劝退观众和影响电影观感的最大硬伤。站长网2024-07-17 10:58:150000个人电脑史无前例五大变化!联想:AI PC将刺激中国用户换机
快科技1月14日消息,据国内媒体报道,今年CES期间,联想发布了多达40多款智能终端产品,包括10多款AIPC相关产品。联想集团执行副总裁、中国区总裁刘军在CES接受媒体采访时表示,非常看好AIPC在未来几年刺激用户更换新机,带动PC市场增长。0000今日AI:英伟达大模型Nemotron-4登场;ai贴纸Face to sticker火了;KOALA AI 模型问世;Hugging Face发现100个恶意模型
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用英伟达最强通用大模型Nemotron-4登场!【AiBase提要:】站长网2024-03-01 17:05:180000疯感,一种新的流量密码
01“00后疯感工牌”最近频上热搜,引发大量讨论互动。它开启了一个很有代入感的爽文叙事:打工人把发疯吐槽实名印在工牌上,大胆贴上工位,平等挑衅每一个路过的办公室bitch,还会直接喊话上司“上班发点疯很正常,情绪稳定是另外的价钱”。图源:小红书用户“在护肤品公司打工日常”如此大胆开麦,为大家吐出胸中的一口恶气,不禁让打工人大呼过瘾!站长网2024-07-20 03:30:420000