比尔·盖茨都为之倾倒的AI Agent,究竟是什么
AI Agent是一个数月前开始广为流传的词汇,近日比尔·盖茨在个人博客上的文章更是为它的热度再添了一把火。“Android、iOS和Windows都是平台,AI Agent将成为下一个平台”,比尔·盖茨在他的博客文章中这样说到。
在比尔·盖茨看来,随着AI技术的日益普及,未来五年内我们将不再使用不同的应用程序来完成不同的任务,相反只需用日常用语告诉你的手机或电脑想要做什么,它们就能够处理你的请求。在不远的将来,任何上网的人都将能够拥有一个由人工智能驱动的个人助理,也就是所谓的“AI Agent”。
事实上,AI Agent在中文语境下通常被称为“智能体”,指的是能够自主感知环境、并采取行动实现目标的智能实体,更强调自主性和主动性。具体而言,在大语言模型(LLM)的场景下,AI Agent可以理解为在大语言模型的基础上能够自主感知、规划决策、执行复杂任务的智能产品,它可以通过独立思考和调用工具逐步完成给定的目标,无需人类去指定每一步的操作。
其实不仅仅是比尔·盖茨,Meta创始人扎克伯格也曾表示,看到了“以有用、且有意义的方式,向数十亿人介绍AI Agents的机会”。
那么问题就来了,为什么AI Agent会受到以比尔·盖茨为代表的大佬们的青睐呢?因为AI Agent就像当初的元宇宙一样,都属于是潜力无限的产品。
大家不妨试想一下,面对一个具有独立思考和行动能力的AI程序,用户只需提供一个目标就可以期待AI Agent来完成,而这样一个不知疲倦的“打工人”,完全可以称得上是“解放和发展生产力”了。
比如当你有一个点外卖的需求时,AI Agent能做到的是直接打开美团App,同时结合你的历史订单信息来选择外卖商家,同时打开微信支付下单,甚至这一连串的操作完全不需要你的介入,只用安心等待外卖送上门即可。所以在当初苹果的Siri都曾引发一众科技厂商争相开发智能语音助手的情况下,如今更进一步的AI Agent又怎能不被各方钟情呢。
那么,AI Agent又是如何搭建的呢?目前,一众以AI Agent为目标的厂商基本上都是以LLM为核心,在此基础上增加规划(Planning)、记忆(Memory)、工具(Tools)这三大关键组件。
AI Agent需要三个组件的原因,是目前的LLM固然很强大,但也有属于它们的缺陷。例如ChatGPT、Bard等等LLM的产品形态都是对话机器人,并且为了让用户第一时间就能感知到LLM与以往这类产品的不同,导致了现在的LLM普遍存在能力固化,或者是专精于对话、绘画等特定场景的问题。
同时为了在算力有限的情况下满足更多用户的使用,LLM的记忆力也受到了一定限制。OpenAI CEO山姆·奥特曼就曾表示,由于GPU短缺导致算力不足,他们无法扩大ChatGPT的对话框列表,直接影响到了回答用户问题时可以处理的信息量,以至于ChatGPT的“记忆力”被限制。
AI Agent基本可以被视为一个补全短板、并解除限制的LLM,有了规划能力,AI Agent就可以通过自然语言与外界进行多轮交互,来将一个目标拆解为具体的各项子任务。记忆力则保证了AI Agent不会在完成一项项子任务时偏离最初的目标,而当任务需求超出AI Agent自身的能力范围时,它就需要使用工具、也就是调用其他软件。事实上,这一套流程基本就是在模仿人类,这也是为什么它在商业层面极富想象力的原因。
图源备注:图片由AI生成,图片授权服务商Midjourney
从某种意义上来说,AI Agent是通用人工智能AGI的前置科技,而至于AGI的商业价值,其实看看科幻电影就知道了。不过AI Agent描绘的未来固然很美妙,但它实际上与元宇宙颇为类似,想要变为现实也非一朝一夕的事情。按照比尔·盖茨的说法,AI Agent需要一种全新的数据库,在捕捉用户所思所想、乃至快速调取相关信息的同时,还能保护用户的隐私。
显而易见,这种既要又要的产物,并不是现有数据库相关技术所能实现的。此外更困难的挑战是AI幻觉,而AI大模型会产出不遵循原文或者与事实相悖的结果,这已经是公认的事实。既然AI大模型会产生幻觉,基于大模型的AI Agent又如何能避免产生幻觉呢?一旦AI Agent出现幻觉,显然就会直接导致在执行任务时出现偏差,进而偏离用户设定的目标。对于一个面向消费级市场的产品,如果无法正确执行用户的指令,价值显然就要打上一个问号。
好在AI Agent所在的AI赛道是目前的热门,与已经失去资本市场青睐的元宇宙不太一样。现在的问题,就是AI Agent的从业者能否在有限的时间内将其变成一个可以初步落地、能让消费者体验的产品。如果不能,无论AI Agent的潜力有多大,元宇宙的今天或许就是AI Agent的明天。
YouTube计划推新AI工具:让你可以模仿自己偶像的声音
划重点:1.YouTube计划推出一项新的AI工具,允许用户录制音频,模仿他们最喜欢的艺术家的声音。2.尽管细节有限,但YouTube已与音乐公司接触,以获取歌曲版权来培训该工具。3.人工智能在音乐领域的应用引发了一系列问题,包括内容限制、变现化和艺术家权益。站长网2023-10-20 17:06:370000“模特不能太漂亮”,这家新店卖基础款服装年销千万
因为一条简单的“种草”文章,“00后”茹茹爱上了“90年代通勤穿搭”。在一场复古走秀里,模特穿着基础款服装——紧身打底衫、包裙、休闲衬衣、配上珍珠项链,没有繁复的修饰,但她举手投足间就展现出慵懒又精致的气质。茹茹花了将近1000元买了一件马甲和一件衬衫,“不算有性价比,但是能接受,虽然我穿不出模特的那种效果,但也喜欢上了这种风格”。0000美团、浙大等提出视觉任务统一架构VisionLLAMA
要点:1.VisionLLaMA是一种统一的视觉transformer架构,显著提升了图像生成、分类、语义分割和目标检测等多个主流视觉任务的性能。2.VisionLLaMA架构采用常规transformer和金字塔结构两种设计,有效减少了视觉和语言之间的架构差异,实现了更好的泛化能力和更快的收敛速度。站长网2024-03-07 16:16:090000马斯克和谷歌联合创始人拉里·佩奇在 AI 风险问题上的分歧导致了多年友谊的结束
站长之家(ChinaZ.com)12月4日消息:特斯拉首席执行官埃隆·马斯克和谷歌联合创始人拉里·佩奇之间关于人工智能风险的严重分歧据说导致了他们多年友谊的结束。站长网2023-12-04 10:41:170000嵌入式、C语言位操作的一些常见用法归纳
分享关于位操作、寄存器配置的一些笔记:一、位操作简单介绍首先,以下是按位运算符:在嵌入式编程中,常常需要对一些寄存器进行配置,有的情况下需要改变一个字节中的某一位或者几位,但是又不想改变其它位原有的值,这时就可以使用按位运算符进行操作。下面进行举例说明,假如有一个8位的TEST寄存器:当我们要设置第0位bit0的值为1时,可能会这样进行设置:TEST=0x01;站长网2023-05-24 03:39:2800015