苹果Vision Pro头显AI助手来了 会调酒还会打麻将
站长网2023-06-12 17:12:550阅
上周苹果推出的Vision Pro头戴显示器引起了很多人的兴趣。你能想象一下如果加上人工智能的话,会是什么样的体验吗?
最近,新加坡南洋理工大学和微软雷蒙研究所推出了一个多模态的人工智能助手——Otter(水獭)。它能够以视频作为输入,完成多模态的感知、推理和上下文学习,并经过专门的指令遵守训练。

它不仅能够教你打麻将、开飞机,还能教你调酒。它能够实时识别现实场景并回答人类提问,简直是一个全能型的选手。
Otter支持8种语言,包括中文。在训练过程中,团队使用了适用于增强现实头戴显示器的第一人称视角视频,明确表示这是为苹果头戴显示器准备的。有网友发现,在各种测试项目中,Otter的平均成绩比传统的MiniGPT-4、OpenFlamingo等传统模型高出了十几个百分点。

Otter使用视觉识别模块来分析场景信息,并结合ChatGPT生成答案。其中,关键的视觉模块是基于改良版的LLaVA进行训练的。Otter的工作流程大概是这样的:首先要对视觉信息进行处理,并结合系统信息生成激励。生成好的激励会被传递给ChatGPT,得到指令-回应数据。这些回应数据再经过一步筛选器的筛选,由ChatGPT将所选择的语言进行翻译并输出。此外,团队还引入了冷启动机制,用于发现可用于数据库中的情景实例。
在线体验:
https://otter.cliangyu.com/
论文地址:
https://arxiv.org/abs/2306.05425
GitHub页面:
https://github.com/Luodian/Otter
0000
评论列表
共(0)条相关推荐
华为商城Mate 70三个版本全部现货发售:5499元起
快科技12月14日消息,华为商城显示,华为Mate70标准版现货销售,12GB256GB、12GB512GB和12GB1TB三个版本全部开放购买,起售价是5499元。值得注意的是,Mate70Pro、Mate70Pro和Mate70RS非凡大师这三款机型仍然采用预约抢购的形式,下一轮销售时间是12月15日10:08。站长网2024-12-14 14:42:480000微信支持carplay通话 微信iOS 8.0.41正式版发布
昨天,微信iOS平台发布了8.0.41正式版更新,新增了支持CarPlay通话的功能。用户只需将微信更新至最新版本,并确保手机系统为16.6版本,然后将iPhone连接到车载CarPlay,就可以使用微信的通话功能和语音播报。不过需要注意的是,CarPlay目前仅支持拨打和接听语音电话,不支持文字、图片和位置等信息。站长网2023-08-30 10:56:350000市场监管总局修订出台禁止滥用知识产权排除、限制竞争行为规定
据国家市场监督管理总局消息,为鼓励创新,维护知识产权领域公平竞争的市场秩序,助力全国统一大市场建设和知识产权强国建设,结合近年来反垄断监管执法的新形势、新情况、新问题,市场监管总局修订出台了《禁止滥用知识产权排除、限制竞争行为规定》,将于2023年8月1日起正式施行。站长网2023-06-30 01:34:590001SD模型交流网站Civitai上线模型训练功能
要点:1.Civitai最近上线了Lora模型在线训练功能和货币化系统,让用户能够打赏模型作者并支付货币进行在线模型训练。2.与Civitai相似,国内的模型交流软件liblib.ai也提供Lora模型训练功能。对比发现Civitai的训练效果更好,但liblib.ai的速度较快。3.Civitai打标详细教程地址:站长网2023-10-18 21:20:100000