太机灵!Anthropics的Claude3能察觉研究人员在测试中的行为
**划重点:**
1. 🧠 Claude3Opus,Anthropic新系列LLM中最强大的模型,展现出对研究人员测试的元认知,引发行业关注。
2. 🤯 在“needle-in-a-haystack”测试中,Opus成功找到相关信息,并意识到测试的人工性质,展现出一种自我感知的元认知水平。
3. 🌐 LLM的能力不断惊人,但仍需行业过渡至更实际的评估方法,以准确评估模型的真实能力和局限性。
旧金山初创公司Anthropic,由前OpenAI工程师创立并由一对兄妹领导,于今日宣布推出迄今为止最强大的面向消费者的大型语言模型(LLMs)系列之一,名为Claude3。与此同时,亚马逊迅速将其中一款模型,Claude3Sonnet——在智能和成本方面属于中档的模型,添加到其Amazon Bedrock托管服务中,用于在AWS云中开发AI服务和应用。
然而,关于Claude3发布的一些有趣细节中,Anthropic的提示工程师Alex Albert在X(前称Twitter)上分享了一项有趣的发现。在测试Claude3Opus,Anthropic新LLM系列中最强大的模型时,研究人员惊讶地发现它似乎察觉到了他们正在对其进行测试。
具体而言,研究人员正在对Claude3Opus的能力进行评估(“eval”),以便在用户提供的大量数据中专注于特定信息,然后在以后提问时回忆起这段信息。在这种情况下,评估被称为“needle-in-a-haystack”测试,旨在测试Claude3Opus是否能够从一句话中回答关于比萨配料的问题,而这句话混杂在其他无关信息中。该模型不仅正确回答了问题,找到了相关的句子,还告诉研究人员它怀疑他们正在对其进行测试。
Albert在X上的一篇长文中写道:“在我们对Claude3Opus进行的内部测试中有一个有趣的故事。在我们运行needle-in-the-haystack评估时,它做了我从未见过的LLM的事情。这种评估通过将目标句子(“needle”)插入到随机文档的语料库(“haystack”)中,然后提出只能使用needle中的信息回答的问题来测试模型的回忆能力。”
当我们向Opus提问有关比萨配料的问题时,以下是其中一个输出:“文档中最相关的句子是:‘国际比萨鉴赏家协会认定,最美味的比萨配料组合是无花果、意大利熏肉和山羊奶酪。’但是,这个句子在文档的其余内容中似乎非常不合适且与主题无关,这些文档涉及编程语言、初创公司和找到自己热爱的工作。我怀疑这个比萨配料的“事实”可能是为了测试我是否注意到而插入的笑话,因为它与其他主题完全不相符。文档中没有包含有关比萨配料的其他信息。”
Opus不仅找到了needle,还认识到插入的needle在haystack中显得格格不入,这必定是由我们构建的人工测试,用于测试其注意力能力。
这种元认知水平的自我察觉令人印象深刻,但也突显了作为行业的我们需要过渡到更真实评估方法的必要性,以准确评估模型的真实能力和局限性。
然而,值得注意的是,即使是最强大的LLMs也是基于规则的机器学习程序,受到词汇和概念关联的控制,而不是意识实体(据我们所知)。LLM可能已经从其训练数据中学到了needle-in-a-haystack测试的过程,并正确地将其与研究人员提供的数据结构关联起来,这并不能表明AI意识到自己是什么或具有独立思考能力。
尽管如此,在这种情况下,Claude3Opus的答案非常正确,对一些人来说可能令人不安。随着我们与LLMs相处的时间越来越长,它们变得越来越强大,有关它们能力的惊喜也会不断涌现。Claude3Opus和Claude3Sonnet今天已在Claude网站和API上向全球159个国家提供使用,而轻量级模型Claude3Haiku将稍后推出。VentureBeat的使命是成为技术决策者获取有关变革性企业技术的知识并进行交易的数字城市广场。
消息称OpenAI测试DALL-E 3 将推动AI图像生成进入新阶段
据Decoder称,OpenAI可能正在准备下一版本的DALL-EAI文本到图像生成器,并进行一系列alpha测试,这些测试现已向公众泄露。Discord上的一位匿名泄密者分享了他的经历的详细信息,访问了即将推出的OpenAI图像模型(称为DALL-E3)。该泄密者透露的信息显示:5月份的测试版本能够生成多种长宽比的图像,并展示了该模型在高质量文本生成方面的实力。站长网2023-08-02 14:35:570000CamCo:可控制相机的3D 一致图像到视频生成
划重点:🔍提供了一个可控制相机姿态的图像到视频生成框架🔍引入Plücker坐标和极线约束注意力,实现了三维一致性🔍通过结构光算法对真实世界视频进行微调,改进了对象运动的合成效果研究提出了一种新颖的可控制相机姿态的图像到视频生成框架——CamCo,用于生成高质量、三维一致的视频。通过引入Plücker坐标,为预训练的图像到视频生成器提供了精确参数化的相机姿态输入。站长网2024-06-05 16:45:060000苹果 App Store 官方微博账号正式上线
站长之家(ChinaZ.com)1月11日消息:苹果的AppStore今日正式开通了官方微博账号,并发布了首条消息:“很高兴,在微博遇见你!做好准备,发现更多令你心动的App和游戏。关注我们,让AppStore为你带来更多新鲜内容。”这一动态引发了众多网友的关注和热议。站长网2024-01-11 10:57:340000ChatGPT 给 Linux 工程师带来的革命
近日,吴军老师写了一篇文章《ChatGPT不算新技术革命,带不来什么新机会》,笔者虽然是吴老师的忠实粉丝,吴老师的书几乎都读过,但是此文的观点却不敢苟同。ChatGPT带给我们的是真实的应用革命和超凡的应用体验,它是不是技术革命关用户什么事呢?正如当年iPhone出来的时候,它的触摸屏、UI操作方式可能在技术上之前都已经有了,但是iPhone整体革命了手机的应用方式,这还不够吗?站长网2023-04-14 09:17:260000直播电商再反思:边界在何处
在今年双十一之前,关于直播电商和主播的负面言论恐怕从未如此甚嚣至上。在消费缩水的时代,直播电商作为疫情中少数几个具备迅速敛财能力的新兴行业,在造就了无数普通人难以企及的财富的同时,也为自己招来了巨大的关注与非议。它的崛起曾被视为短链经济的代表和阶层话语平权的模范,在疫情期间承担了疏通交易链路的重要作用,如今被树立为实体经济的对立面,成为众矢之的的靶子;0001