AntGPT:一个视频中长期行为预测大型语言模型
站长网2023-08-07 10:38:220阅
AntGPT 是一个将大型语言模型应用于视频长期行为预测(LTA)的视觉语言框架。研究人员通过使用监督动作识别算法识别人类活动,并将其作为离散化的视频表示输入给 OpenAI GPT 模型。通过自回归方法、微调或上下文学习,GPT 模型可以预测未来的行动序列,从而实现从底向上的行动预测。

项目地址:https://brown-palm.github.io/AntGPT/
论文地址:https://arxiv.org/abs/2307.16368
他们还利用目标信息来提供以目标为条件的预测,并研究了 AntGPT 在上下文推理和少样本学习方面的能力。
定量和定性评估表明,LLMs 可以从视频观察的离散化动作标签中推断出演员的高级目标,并且在 EPIC-Kitchens-55、EGTEA GAZE 和 Ego4D LTA v1和 v2基准测试中取得了最先进的长期行动预测性能。该研究提出了使用大型语言模型进行长期行动预测的方法,并通过 AntGPT 框架将 LLMs 与计算机视觉算法相结合,取得了显著的成果。
核心功能:
1)预测目标:AntGPT 利用大型语言模型推断演员的目标,即使只有少量观察到的人类行为。
2)目标条件预测:AntGPT 通过将目标信息嵌入视觉框架,实现了基于目标的行为预测。
3)建模动作时序:AntGPT通过将大型语言模型调整到特定领域的行动序列上,直接建模动作的时间动态。
4)少样本预测:AntGPT 探索了大型语言模型在少样本情况下的预测能力,并尝试了不同的提示策略。
0000
评论列表
共(0)条相关推荐
内容社区变现:小红书的无限战争
4月25日晚,承载了许多70、80后青春的天涯社区疑似关停。一代传奇终成“时代的眼泪”,给所有的内容社区平台敲响了警钟。与天涯这类成长于PC时代的BBS论坛不同,小红书诞生以前便有微博在前开路,开局便抓住了移动互联网时代的黄金10年。乘着时代的车轮,小红书从早期的海淘分享社区,逐步转变为生活方式分享平台,从美妆不断延展至美食、旅行、萌宠等社交生活的方方面面。站长网2023-05-24 14:12:400000百度搜索推AI大模型升级版高考服务,Ai志愿助手有了专属智能体
划重点:-百度搜索利用AI大模型和海量大数据,全面升级高考服务-提供在线查分、志愿填报、院校专业、录取查询等功能-Ai志愿助手通过大数据和大模型的智能分析,帮助考生了解录取可能性,并给出准确答案站长网2024-06-07 08:42:290000雷军称小米汽车有信心打开市场:小米汽车即将发布上市
站长之家(ChinaZ.com)3月6日消息:在两会期间,当被问及当前车企价格战激烈的情况下,小米汽车是否有信心打开市场时,雷军坚定地表示:“有信心,当然有信心。”他透露,小米汽车有着10年、20年的决心,以确保其成功,并透露该款车型即将正式发布。站长网2024-03-06 17:10:160000SEC 主席 Gary Gensler 警告:人工智能可能成为下一场金融危机的根源
站长之家(ChinaZ.com)11月1日消息:美国证券交易委员会(SEC)主席GaryGensler正在努力为美国100万亿美元的资本市场带来秩序和公平,而人工智能技术的普及给他带来了很多担忧。站长网2023-11-01 10:08:340000英伟达推出全新的AI模型NVIDIA DLSS 3.5 大幅提升光影效果
今天,英伟达推出全新的AI模型NVIDIADLSS3.5。该模型采用了光线重建(RayReconstruction)技术,能为密集型光追游戏和应用程序,创建更高质量的光追图像。NVIDIADLSS3.5主要实现了三大突破:1.采用全新的光线重建(RayReconstruction)技术,通过AI学习生成更高质量的光线追踪图像,大幅提升光影效果。站长网2023-08-28 17:59:350000