Mobile-Agent: 具有视觉感知 可以像人类样操作手机的自主多模态AI代理
划重点:
📱 纯视觉解决方案,无需系统代码,通过图像分析理解和操作手机
🤖 能完成多种任务,如购物、播放音乐、使用导航APP、写便签和发邮件
🔍 特点包括独立于XML和系统元数据、即插即用、自主任务规划和执行、自反思能力
Mobile-Agent是一款具有视觉感知的自主多模式移动设备代理,由北京交通大学联合阿里巴巴团队共同开发。简单的说,Mobile-Agent相当于一个可以模拟人类操作手机的自主多模态AI代理。
该代理采用纯视觉解决方案,独立于XML和系统元数据,不需要任何系统代码,完全通过分析图像来理解和操作手机。
它能够自动完成各种任务,比如可以在淘宝加购物车车,在APP播放音乐,自主使用导航APP,收发邮件等等。
Mobile-Agent的主要特点包括操作范围不受限制,多应用操作,以及采用纯视觉解决方案。其无需探索和培训,用户可随时使用。项目团队通过 Mobile-Eval 进行了性能评估,包括10个主流单应用场景和1个多应用场景,为用户提供了详细的评估结果。该评估覆盖了阿里巴巴、亚马逊音乐、谷歌地图等10个应用场景,以及一个多应用场景。
每个场景设计了三个不同难度的指令,以评估 Mobile-Agent 在各种任务下的表现,具体如下
应用操作说明阿里巴巴1.帮我在阿里巴巴找帽子。
2.帮我在阿里巴巴找帽子。如果商品信息页面中显示“添加到购物车”,请将商品添加到我的购物车。
3.我想买一顶帽子。我听说阿里巴巴的东西很便宜。也许你可以帮我找到它。
亚马逊音乐1.在亚马逊音乐中搜索歌手周杰伦。
2. 在亚马逊音乐中搜索一首关于“特工”的音乐并播放。
3.我想听音乐放松一下。寻找一个应用程序来帮助我。
谷歌浏览器1. 搜索今天湖人队比赛的结果。
2. 搜索有关泰勒·斯威夫特的信息。
3. 我想知道今天湖人队比赛的结果。寻找一个应用程序来帮助我。
邮箱1. 发送一封空电子邮件至 {address}。
2. 发邮件到{address}n告诉我的新作品。
3. 我想让我的朋友知道我的新作品,他的地址是{address}。寻找一个应用程序来帮助我。
谷歌地图1.导航至杭州西湖。
2. 导航到附近的加油站。
3.我想去杭州西湖,但不认识路。寻找一个应用程序来帮助我。
谷歌游戏1. 在 Play 商店下载 WhatsApp。
2. 在 Play 商店下载 Instagram。
3. 我想要在手机上安装 WhatsApp。寻找一个应用程序来帮助我。
笔记1. 在Notes中创建一个新笔记。
2. 在Notes中创建一个新笔记并写入“您好,这是一条笔记”,然后保存。
3.我突然有事要记录,帮我找个App,写下以下内容:下午3点开会。
设置1.开启深色模式。
2. 打开飞行模式。
3. 我想查看电池电量下的实时网速,请帮我打开此设置。
抖音1. 在 TikTok 中滑动一段有关宠物猫的视频,并为该视频点“赞”。
2、在抖音里刷一段关于宠物猫的视频并评论“哦哦哦,好可爱的猫!”。
3.在TikTok中滑动视频。点击“喜欢”3只宠物视频猫。
YouTube1. 在 YouTube 上搜索有关斯蒂芬·库里的视频。
2. 在 YouTube 上搜索有关斯蒂芬·库里的视频,然后打开“评论”评论“哦,厨师,你的篮球精神一直激励着我”。
3. 我需要你帮助我在 YouTube 上表达我对斯蒂芬·库里的喜爱。
多应用程序1. 打开日历并查看今天的日期,然后转到“注释”并创建一个新注释以写入“今天是{今天的数据}”。
2.查看未来5天的温度,然后在笔记中新建一条笔记,写下温度分析。
3. 搜索今天湖人队比赛的结果,然后在注释中创建注释,为该结果撰写体育新闻。
MobileAgent的特点包括依赖于纯视觉解决方案、独立于XML和系统元数据、具备多种视觉感知工具进行操作定位、无需探索和训练即插即用。其工作原理涵盖视觉感知工具、自主任务规划和执行、自反思等关键模块,使其能够准确识别和操作手机屏幕上的各种元素。团队宣布即将发布移动代理的演示视频,展示其在实际操作中的性能和应用场景。
法国初创公司 Mistral AI 免费发布高性能语言模型 Mistral7B
MistralAI,一家法国人工智能初创公司,最近发布了一款性能优越的语言模型Mistral7B,并免费向所有人提供使用。这一模型的性能在同等规模的模型中表现出色,用户可以完全免费下载和使用,没有任何限制。站长网2023-09-28 09:38:510000LLaVA-1.6来了!赶超Gemini Pro 提升推理性能
要点:1、LLaVA-1.6提升了推理、OCR能力,支持更多场景和广泛用户。2、LLaVA-1.6在多项基准测试中超越了GeminiPro,并优于Qwen-VL-Plus。3、LLaVA-1.6展现出强大的零样本中文能力,取得了SOTA性能。站长网2024-02-01 14:31:010000通义千问GPT-4级主力模型Qwen-Long API输入费用暴跌97%
今日阿里云宣布将其GPT-4级主力模型Qwen-Long的API输入价格从每千tokens0.02元降至每千tokens0.0005元,直降了惊人的97%。这一举动意味着,现在用户只需花费1块钱就可以购买200万tokens,相当于5本《新华字典》的文字量。这款模型还支持长达1千万tokens的文本输入,而新的价格大约是GPT-4价格的1/400,使其成为全球最具竞争力的选择之一。站长网2024-05-22 00:48:570000投资者使用AI检测CEO情绪状态
划重点:1.投资者和资产管理者正在利用人工智能分析CEO的演讲,以窥探其潜在的情绪状态和意图,通过检测语音中的微小变化,包括语速、音调、音量和微颤等。2.采用自然语言处理的AI算法,如SpeechCraftAnalytics,成为一种趋势,帮助投资者确定高管的真实情感和意图,有望预测其未来动向。站长网2023-11-15 18:08:510000理想汽车成为首家达成40万辆交付的新势力车企
理想汽车公布数据称,近期于北京交付中心完成了第40万辆车的用户交付。成为首家达成40万辆交付的新势力车企。理想汽车表示,2023年上半年,理想汽车向用户共计交付新车139,117辆,同比增长130%,这一数据已经超过2022年全年交付量总和。站长网2023-07-05 19:41:400000