Anthropic宣布关键突破，解析人工神经网络行为

站长网2023-10-12 17:06:220阅

划重点:

🧠 重要突破:Anthropic宣布了一项关键研究成果，能更好地理解支撑其人工智能算法的神经网络的行为。

🌐 影响广泛:这一研究有望提高下一代人工智能的安全性和可靠性，使研究人员和开发者能够更好地控制其模型的行为。

🤖 神经网络解析:研究人员通过解析神经网络内部的特征，取得了重要进展，有望解决神经网络行为的难题。

人工智能初创公司Anthropic PBC近日宣布了一项重大突破，他们表示已找到一种更好地理解支撑其人工智能算法的神经网络行为的方法。这一研究成果有望在提高下一代人工智能的安全性和可靠性方面产生深远影响，使研究人员和开发者能够更好地控制其模型的行为。

Anthropic的研究聚焦在神经网络的不可预测性上，这些网络受到启发于人脑的神经元工作方式，模仿生物神经元之间的信号传递。神经网络是通过数据训练的，而不是按照特定规则编程的，因此它们可以呈现多种不同的行为，这就是为什么研究人员很难控制人工智能模型，以及如何防止其生成虚假答案，也就是所谓的“幻觉”。

图源备注：图片由AI生成，图片授权服务商Midjourney

Anthropic指出，神经科学家在试图理解人类行为的生物基础时面临类似的挑战。他们知道人脑中的神经元必须以某种方式实施思维、情感和决策，但他们无法确定其工作原理。

为了更好地理解神经网络的工作方式，Anthropic的研究人员深入研究了单个神经元，并确定了每个神经元内部的小单元，被称为特征，这些特征更好地对应于神经元激活的模式。通过研究这些特征，研究人员相信他们最终可以更好地理解神经网络的行为。

在一项实验中，Anthropic研究了一个小型变压器语言模型，将512个人工神经元分解成代表DNA序列、法律文本、HTTP请求、希伯来文本、营养说明等上下文的4000多个特征。他们发现，单个特征的行为比神经元的行为更具解释性。

Anthropic验证了他们的研究成果，他们创建了一个盲目的人工评估者来比较单个特征和神经元的可解释性。结果显示，特征（红色）比神经元(蓝绿色)得分要高得多。

Anthropic表示，这为以特征作为神经网络理解的基础提供了有力证据。通过放大并查看4000多个特征的整个集合，Anthropic发现这些特征在不同人工智能模型之间具有广泛的普适性。因此，通过研究一个模型中的特征所学到的经验可以应用于其他模型。

尽管人工神经网络是使人工智能在过去几年中变得如此强大的关键发展，但没有人真正完全理解它们的工作原理，因此无法预测它们将如何回答或响应任何给定的提示。研究人员迄今大多集中在“机械互操作性”的研究上，即逆向工程神经网络的研究。

Anthropic的研究方法为解决这一混乱提供了一个有趣的途径，通过更清晰地理解神经网络的内部工作方式，他们已经展示出了预测神经网络结果的能力。尽管这一方法尚未扩展到更大的模型，但在小型模型上已经显示出了令人印象深刻的潜力，有望在“机械互操作性”的研究中取得良好进展。

Anthropic相信，通过进一步研究，他们可能能够操控所描述的特征，以更可预测的方式控制神经网络的行为。最终，这可能对克服理解语言模型行为的挑战至关重要。

Anthropic宣布关键突破解析人工神经网络行为

0000

评论列表

共(0)条

相关推荐

站长资讯
裁员一万转身拥抱AI，Meta又要改名了
“Meta进军AI，能行吗？”作者|Eric编辑|Zuri首图来源：TheNewYorkTImes美国科技四巨头中，如今就属Meta最显落寞了。
站长网2023-04-17 18:34:24
0000
站长资讯
Apple 为 SignChat 申请商标以提供手语服务
根据欧盟知识产权局周末公布的一份清单，苹果已经获得批准使用名为“SignChat”的新商标，苹果已经在其德国网站上申请了该商标。Apple的德国网站写道：“欢迎来到SignChat会议。使用SignChat服务获取购物建议和售后支持。
站长网2023-05-29 10:50:50
0000
站长资讯
台积电、英伟达与供应商正在合作开发 AI GPU 浸没式液冷系统
站长之家(ChinaZ.com)7月24日消息:台积电在推进AI服务器应用的同时，也在同步推进散热技术。AI供应链消息称，高力（热处理技术供应商）正积极与台积电与英伟达合作开发AIGPU浸没式液冷系统。
站长网2023-07-24 22:17:31
0001
站长资讯
1.5万亿赛道疯狂融资，一群老兵在狂飙
今年，电视剧《狂飙》火了。而在现实中“狂飙”的，却是这个行业:量贩零食店。这些以称重散装食品为主的量贩零食店正在三线及以下城市快速扩张。有媒体报道，在江西一个县城的商业步行街上，仅今年就开出了五家量贩零食店。先看一组数据:创办于湖南的“零食很忙”，五年时间门店数量超2200家，2022年全国门店零售营业额达64.45亿;
站长网2023-05-13 09:52:44
0001
站长资讯
阿里魔搭社区开源AIGC图生图产品“相似图像生成模型”
魔搭社区最近推出了相似图像生成模型。该模型可以根据输入的原始图像生成多张风格相似但不完全相同的图像，适用于艺术创作和产品设计等领域。具体为:1.艺术创作:根据一张原始图像，一键生成众多相似又不完全相同的图像，达到多样化的效果。2.产品/平面设计:为产品生成相似的、多样的、不同分辨率的效果图，提供更多选择，节约时间和成本。模型链接:
站长网2023-08-29 12:18:08
0000