Mobile-Agent: 具有视觉感知 可以像人类样操作手机的自主多模态AI代理
划重点:
📱 纯视觉解决方案,无需系统代码,通过图像分析理解和操作手机
🤖 能完成多种任务,如购物、播放音乐、使用导航APP、写便签和发邮件
🔍 特点包括独立于XML和系统元数据、即插即用、自主任务规划和执行、自反思能力
Mobile-Agent是一款具有视觉感知的自主多模式移动设备代理,由北京交通大学联合阿里巴巴团队共同开发。简单的说,Mobile-Agent相当于一个可以模拟人类操作手机的自主多模态AI代理。

该代理采用纯视觉解决方案,独立于XML和系统元数据,不需要任何系统代码,完全通过分析图像来理解和操作手机。
它能够自动完成各种任务,比如可以在淘宝加购物车车,在APP播放音乐,自主使用导航APP,收发邮件等等。
Mobile-Agent的主要特点包括操作范围不受限制,多应用操作,以及采用纯视觉解决方案。其无需探索和培训,用户可随时使用。项目团队通过 Mobile-Eval 进行了性能评估,包括10个主流单应用场景和1个多应用场景,为用户提供了详细的评估结果。该评估覆盖了阿里巴巴、亚马逊音乐、谷歌地图等10个应用场景,以及一个多应用场景。
每个场景设计了三个不同难度的指令,以评估 Mobile-Agent 在各种任务下的表现,具体如下
应用操作说明阿里巴巴1.帮我在阿里巴巴找帽子。
2.帮我在阿里巴巴找帽子。如果商品信息页面中显示“添加到购物车”,请将商品添加到我的购物车。
3.我想买一顶帽子。我听说阿里巴巴的东西很便宜。也许你可以帮我找到它。
亚马逊音乐1.在亚马逊音乐中搜索歌手周杰伦。
2. 在亚马逊音乐中搜索一首关于“特工”的音乐并播放。
3.我想听音乐放松一下。寻找一个应用程序来帮助我。
谷歌浏览器1. 搜索今天湖人队比赛的结果。
2. 搜索有关泰勒·斯威夫特的信息。
3. 我想知道今天湖人队比赛的结果。寻找一个应用程序来帮助我。
邮箱1. 发送一封空电子邮件至 {address}。
2. 发邮件到{address}n告诉我的新作品。
3. 我想让我的朋友知道我的新作品,他的地址是{address}。寻找一个应用程序来帮助我。
谷歌地图1.导航至杭州西湖。
2. 导航到附近的加油站。
3.我想去杭州西湖,但不认识路。寻找一个应用程序来帮助我。
谷歌游戏1. 在 Play 商店下载 WhatsApp。
2. 在 Play 商店下载 Instagram。
3. 我想要在手机上安装 WhatsApp。寻找一个应用程序来帮助我。
笔记1. 在Notes中创建一个新笔记。
2. 在Notes中创建一个新笔记并写入“您好,这是一条笔记”,然后保存。
3.我突然有事要记录,帮我找个App,写下以下内容:下午3点开会。
设置1.开启深色模式。
2. 打开飞行模式。
3. 我想查看电池电量下的实时网速,请帮我打开此设置。
抖音1. 在 TikTok 中滑动一段有关宠物猫的视频,并为该视频点“赞”。
2、在抖音里刷一段关于宠物猫的视频并评论“哦哦哦,好可爱的猫!”。
3.在TikTok中滑动视频。点击“喜欢”3只宠物视频猫。
YouTube1. 在 YouTube 上搜索有关斯蒂芬·库里的视频。
2. 在 YouTube 上搜索有关斯蒂芬·库里的视频,然后打开“评论”评论“哦,厨师,你的篮球精神一直激励着我”。
3. 我需要你帮助我在 YouTube 上表达我对斯蒂芬·库里的喜爱。
多应用程序1. 打开日历并查看今天的日期,然后转到“注释”并创建一个新注释以写入“今天是{今天的数据}”。
2.查看未来5天的温度,然后在笔记中新建一条笔记,写下温度分析。
3. 搜索今天湖人队比赛的结果,然后在注释中创建注释,为该结果撰写体育新闻。
MobileAgent的特点包括依赖于纯视觉解决方案、独立于XML和系统元数据、具备多种视觉感知工具进行操作定位、无需探索和训练即插即用。其工作原理涵盖视觉感知工具、自主任务规划和执行、自反思等关键模块,使其能够准确识别和操作手机屏幕上的各种元素。团队宣布即将发布移动代理的演示视频,展示其在实际操作中的性能和应用场景。
通用物体级基础模型GLEE:增强图像和视频分析
**划重点:**1.🧠GLEE是一种通用物体级别基础模型,由华中科技大学、字节跳动和约翰斯·霍普金斯大学的研究人员共同推出,突破了当前视觉基础模型的限制,提供准确而全面的物体级信息。2.🎓GLEE以其在各种任务中表现卓越的通用性而闻名,无需特定任务适应即可在不同对象感知任务中定位和识别物体,同时集成大型语言模型以提供多模态研究的通用物体级信息。站长网2023-12-18 11:40:570000OpenAssistant发布其开源ChatGPT竞争对手
在OpenAI发布之后ChatGPT,去年12月份开源项目OpenAssistant也发布了其第一个模型、训练数据和代码,功能类似于OpenAI的ChatGPT。为什么重要:人工智能研究的民主化,特别是在大规模语言模型及其对齐领域,仅限于少数具有训练和收集数据资源的研究实验室。OpenAssistant发布模型和数据旨在使这项研究民主化,并提供包容性和多样化的研究工作。站长网2023-04-17 09:58:220001刷新记录!科学家利用AI成功缩短钙钛矿太阳能电池制造周期
**划重点:**1.🤖利用AI技术,澳大利亚研究团队成功缩短了制造钙钛矿太阳能电池的时间,打破了人工劳动和错误的限制。2.☀️钙钛矿太阳能电池被制造出来,不仅成本低于硅材料,而且经过最新技术的稳定性测试,具备商业应用的长期稳定性。3.🚀利用机器学习,他们开发了新的太阳能电池制造方法,取得了16.9%的功率转换效率,创下了无人工干预的最佳记录。站长网2023-11-16 11:20:450000快手电商开展商责退运费专项治理
快手电商发布公告称,为维护用户和平台的合法权益,营造良好的交易环境,平台决定针对【消极售后-商责退运费】进行专项治理。【商责退运费】是指买家因商户问题(如商品质量问题、物流签收问题等)申请的退货退款,在退货成功以后,商户需要补全买家的退货运费金额。站长网2023-04-16 08:15:160000生成式AI对未来就业有何影响?到2030年将重塑1100万个工作岗位
文章概要:1.生成式人工智能(GenAI)的“过度采用”将到2030年消除240万个工作岗位,但预计将重塑超过1100万个工作岗位。2.GenAI技术受到广泛采用,但也带来了就业市场的混乱,尤其是在办公室和行政工作领域以及支付中等工资的中层工作。站长网2023-09-19 12:04:150000