苹果Vision Pro头显AI助手来了 会调酒还会打麻将
站长网2023-06-12 17:12:550阅
上周苹果推出的Vision Pro头戴显示器引起了很多人的兴趣。你能想象一下如果加上人工智能的话,会是什么样的体验吗?
最近,新加坡南洋理工大学和微软雷蒙研究所推出了一个多模态的人工智能助手——Otter(水獭)。它能够以视频作为输入,完成多模态的感知、推理和上下文学习,并经过专门的指令遵守训练。
它不仅能够教你打麻将、开飞机,还能教你调酒。它能够实时识别现实场景并回答人类提问,简直是一个全能型的选手。
Otter支持8种语言,包括中文。在训练过程中,团队使用了适用于增强现实头戴显示器的第一人称视角视频,明确表示这是为苹果头戴显示器准备的。有网友发现,在各种测试项目中,Otter的平均成绩比传统的MiniGPT-4、OpenFlamingo等传统模型高出了十几个百分点。
Otter使用视觉识别模块来分析场景信息,并结合ChatGPT生成答案。其中,关键的视觉模块是基于改良版的LLaVA进行训练的。Otter的工作流程大概是这样的:首先要对视觉信息进行处理,并结合系统信息生成激励。生成好的激励会被传递给ChatGPT,得到指令-回应数据。这些回应数据再经过一步筛选器的筛选,由ChatGPT将所选择的语言进行翻译并输出。此外,团队还引入了冷启动机制,用于发现可用于数据库中的情景实例。
在线体验:
https://otter.cliangyu.com/
论文地址:
https://arxiv.org/abs/2306.05425
GitHub页面:
https://github.com/Luodian/Otter
0000
评论列表
共(0)条相关推荐
Meta 将推出第一代自研人工智能运算芯片 MTIA v1
Meta公司的AI工作负载无处不在,为诸多应用提供基础支持,如内容理解、动态信息流、生成式AI和广告排名等。得益于其与Python的无缝集成、急切模式编程和简明的API,PyTorch可以运行这些工作负载。其中,DLRMs对于提升Meta产品和服务的用户体验至关重要。硬件系统必须在模型的规模和复杂性不断增长的情况下,提供越来越多的内存和计算资源,同时保持效率。站长网2023-05-23 15:13:110000百度百家号内测“百家号AI助手” 提升创作者创作效率
百度旗下百家号宣布,百家号AI助手正在内测中,旨在用技术大幅提升创作者的创作效率。目前百家号AI助手已开启内测,创作者已可报名参加。此次能力升级主要有以下功能和改动点:站长网2023-10-20 10:42:370000人工智能走出科幻片,AI音乐立法走到哪一步了?
“2023年是人工智能技术走出科幻小说领域的一年。”面对去年人工智能技术的突飞猛进,Billboard如此评价。科技的发展,也在倒逼制度的完善,岁末年初,人工智能领域迎来一波“立法潮”。近一个月,欧美相继提出人工智能监管类法案,其中多项条文与音乐行业息息相关。站长网2024-01-25 09:11:360001Stefano Rivera分享交互式“MR木偶秀” 利用ChatGPT+Midjourney+Figmin制作
StefanoRivera分享了利用AI工具制作交互式“MR木偶秀”。利用ChatGPT进行创意和内容策划。Dall-E3和Midjourney生成2D图像。使用tripoai将2D平面图像转化为3D渲染效果。使用Figmin制作场景。音乐由@suno_ai_作曲,语音由elevenlabsio提供。站长网2024-01-22 11:05:470000ChatGPT 正在为一种新型 Snapchat 滤镜提供支持
划重点:-Snapchat宣布将在AR发布会上推出使用ChatGPT提供支持的的AR滤镜特效-LensStudiofordevelopers新版本将包括使用ChatGPT创建滤镜的功能-Snap的AI滤镜已经由ChatGPT提供支持,现在还可以用于创建测验或随机生成器站长网2023-11-10 09:56:070000