LLM是世界模型的新证据?ChatGPT能理解WiFi等物理信号,并猜出你的位置
大语言模型是否是世界模型?
大语言模型除了在数字世界完成如写作或翻译等任务,它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢?
最近来自香港科技大学(HKUST)、南洋理工大学(NTU)与加利福尼亚大学洛杉矶分校(UCLA)的研究者们提供了新的思路:他们发现大语言模型如 ChatGPT 可以理解传感器信号进而完成物理世界中的任务。该项目初步成果发表于 ACM HotMobile2024。
论文标题:Penetrative AI: Making LLMs Comprehend the Physical World
论文地址:https://arxiv.org/abs/2310.09605
项目网站:https://dapowan.github.io/wands_penetrative-ai/
在讨论大型语言模型(LLMs)与物理世界互动的议题时,大家或许更熟悉的是将其应用于图像或音频数据处理,例如视觉语言模型(VLMs)。但在真实物理世界中,除了这些人类依赖的感知数据外,还存在诸多其他重要的物理量,如温度、气压、加速度、电压及电磁波信号强度等等。
因此,该研究团队从一个更广的视野出发,探索了大型语言模型理解这些物理量的可能性。他们发现了大语言模型新的能力 ——处理物理信号进而理解世界,并基于此提出了渗透式人工智能(Penetrative AI)的概念。
研究者们首先尝试让 ChatGPT 来处理手机传感器(加速计、卫星和 WiFi)信号来感知用户在现实世界的活动与位置语义,流程与部分实验结果如下图所示:
研究团队在多种真实场景中采集手机传感器信号,并让 ChatGPT-4分析采集的数据(图中绿色部分)。研究发现 ChatGPT 能够准确地识别用户的行为和所处环境。
在第一项实验中,模型通过分析特定 WiFi 名称(SSID),如「WiFi.HK via EPCC」和「3DG Jewellery」,成功推理用户很有可能在香港某商场。
接下来,研究团队进一步挑战让 ChatGPT 处理心电图(ECG)数据来推算心率。每次心跳都会在 ECG 数据上形成明显的波峰,即所谓的 R-peak。
在这一任务中,ChatGPT 的目标是识别出所有的 R-peak 峰值,以此来计算心率。不同于之前的任务,传感器数据在此任务中完全以纯数字序列的形式提供给模型,如下图所示:
初步实验发现,大语言模型如 ChatGPT 无法有效地直接处理长数字序列信号。面对此挑战,研究者在 Prompt 中为大语言模型设计了一个基于自然语言的「算法」以引导其分析数字信号。
与传统算法不同,该「算法」包含许多模糊逻辑(如「overall」和「lower」等词汇),且无需设定任何阈值。
实验结果显示,ChatGPT-4能有效利用「算法」在绝大多数情况下准确识别出ECG信号中所有R-peaks,其精度甚至能超越相同实验设置下的传统信号处理算法。
渗透式人工智能
开启 AI 和物理世界交互新篇章
定义
研究团队于是提出了一个创新性的概念,渗透式人工智能(Penetrative AI):利用大语言模型内嵌的世界知识来理解和处理广泛部署的物联网(IoT)传感器或控制器信号,来为物理信息系统(Cyber–Physical System,CPS)完成感知与决策任务。
该研究总结了渗透式人工智概念下感知事物的简易流程。在这一新范式下,大语言模型的输入和输出都对应真实的物理信号或状态。例如,让语言模型处理温度计捕获的温度信号,并生成与物理状态相对应的描述性文本 ——「水沸腾了」。随着任务复杂度的增加,向模型中注入专家知识(Expert Knowledge)可以增强其处理复杂数据的能力。
核心特点
与传统范式相比,渗透式人工智能的独特之处在于利用大语言模型中的通用知识。传统方法依赖于专家对物理世界的观察和规则制定,或通过大数据集训练的机器学习模型。而渗透式智能则基于大语言模型中的通识,通过与额外观察或专家模型的协作,为物理信息系统提供更全面的知识支持。
这种新的智能范式利用大量文本数据衍生的通识,不仅能增强系统的泛化能力,而且也能降低对领域知识的依赖。得益于大型语言模型的特性,开发者主要通过编辑文本进行操作,这相比传统的编程方式,可降低开发的难度和成本。该范式也可以利用文本这一通用表征,将不同传感器信号文本化再整合,呈现新的多模态融合方式。
深度探索
研究团队从信号处理的角度出发,深入探讨了大语言模型在处理不同类型信号时的能力,分为文本层次渗透和数字层次渗透两大层次,如上图所示:
文本层次渗透(Textualized-level Penetration):大语言模型主要处理文本形式的信号,例如文本化的温度信号,或第一个示例应用中大模型分析的 WiFi 名称。
数字层次渗透(Digitized-level Penetration):大语言模型主要处理数字形式的信号,例如温度数字信号,或第二个示例应用中大模型分析的 ECG 数字信号。
前文两个示例应用均展示了大型语言模型如 ChatGPT 在两个层次的潜能。相较于文本层次的渗透,大语言模型在数字层次渗透中可以处理更细致的信号信息,但也对其解析信号能力提出了更高要求,任务难度也随之增大。
小结
该研究提出了「渗透式人工智能」(Penetrative AI)的概念,透过两个具体的应用实例,展示了大型语言模型(LLM)如何利用其丰富的知识库,在不同信号层面上理解和处理物理信号,从而实现对现实世界的深度感知和有效干预的潜能。此研究也说明大语言模型如 ChatGPT-4可能已经发展出世界模型,对物理世界有深入的理解。
渗透式智能不仅扩展了大型语言模型的应用领域,而且为 AI 在医疗、环境监测、家庭自动化等多个领域的应用提供了新的智能化解决方案。
如想进一步了解渗透式人工智能的定义、潜力、所面临的挑战和机遇,以及应用实例设计细节,欢迎阅读原论文。
参考文献
[1] Huatao Xu, Liying Han, Qirui Yang, Mo Li, Mani Srivastava. ”Penetrative AI: Making LLMs Comprehend the Physical World”, Proceedings of the25th International Workshop on Mobile Computing Systems and Applications.2024.
AI全面赋能!雷军:小米汽车几乎全身都是先进AI科技
今日,雷军在微博上再次为小米汽车发声。雷军表示:“小米汽车几乎全身都是先进AI科技。”并分享了一篇深度文章《为什么说小米汽车,全身都是AI科技?》。文章详述了小米汽车如何运用AI技术,从材料仿真、电机设计到智能驾驶等各个层面,为读者揭示了小米汽车在科技应用方面的深厚底蕴。0000Transformer“贡献”作者,重返谷歌出任Gemini联合技术主管
出任Gemini联合技术主管!这就是Transformer“贡献最大”作者NoamShazeer(诺姆·沙泽尔),重返谷歌后的最新动向。据TheInformation的更多爆料,Shazeer将与谷歌AI主管JeffDean和DeepMind首席科学家OriolVinyals,一起致力于Gemini的开发。站长网2024-08-27 07:25:240000AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平
京东创始人刘强东啊,他昨天又加班了。准确来说,是他的AI数字人形象“采销东哥”,昨晚开启了自己生涯第四场直播。这次东哥干的是图书采销工作。与上两次直播不同,这一回直播间不仅有了数字人助理,还有多机位切换等展现方式。与此同时,和留言区及屏幕前观众的互动方式也有所增强。量子位就此事询问了京东云言犀算法总监,得到答案是:每一场想侧重表示的不一样。技术的手段比较丰富,很难一场里面都推出来。站长网2024-04-26 04:35:310000国际足联使用AI识别了300名骚扰世界杯球员用户 并通知执法部门
国际足联(FIFA)周日表示,一个利用人工智能追踪社交媒体滥用的项目,该项目主要针对在2022年世界杯期间在网上辱骂、歧视球员的行为,目前已经确定了300多人,他们的详细信息正被提交给执法部门。足球管理机构在一份报告中表示,这些人在Twitter、Instagram、脸书、TikTok和YouTube等平台上发表了“辱骂、歧视或威胁性的帖子(或)评论”。站长网2023-06-20 17:10:310000LLM360: 首个完全开源和透明的大语言模型
**划重点:**1.🌐开源LLMs(如LLaMA、Falcon和Mistral)选择性公开了组件,而LLM360计划通过完全开源训练过程,支持AI研究的透明性和可重复性。2.🚀LLM360发布两个7B参数的LLMs,AMBER和CRYSTALCODER,附带训练代码、数据、中间检查点和分析,旨在推动开源LLMs的全面透明。站长网2023-12-14 12:01:040001