北邮、南洋理工推沙雕视频数据集FunQA 用算法学习喜剧
要点:
1.FunQA是一个包含4365个反直觉视频和312万个文本问答的新数据集。
2.FunQA包含3个子集:幽默视频HumorQA、创意视频CreativeQA和魔术视频MagicQA。
3.FunQA设计了时间戳定位、详细描述、反直觉推理等任务,对模型的理解力提出深入挑战。
来自北京邮电大学、新加坡南洋理工大学及艾伦人工智能研究所的学者们提出了FunQA,一个全新的高质量视频问答数据集,用于测试和提高AI模型对反直觉视频内容的理解能力。
论文地址:https://arxiv.org/abs/2306.14899
FunQA包含总时长近24小时、来自3种反直觉艺术类型的4365个短视频,以及312万条人工注释的视频问答对。它由3个子集组成:幽默视频集HumorQA、创意视频集CreativeQA和魔术视频集MagicQA。这些具有反直觉特点的视频可以对模型的理解力产生深入的挑战。
项目地址:https://funqa-benchmark.github.io/
与现有视频QA数据集相比,FunQA有以下特点:
1. 专注反直觉领域,测试模型对非常规事件的理解力。
2. annotation丰富,每个问答平均34词,远超其他数据集。
3. 创新探索幽默感理解,需要模型学习幽默原理。
4. 强调深度时空推理,如通过常识判断幽默反差。
5. 设计了时间戳定位、详细描述、反直觉推理等任务考察模型的视觉编码、语义表达和逻辑推理能力。
FunQA的具体组成如下:
1. HumorQA:来自脱口秀和模仿秀的1335个幽默视频。
2. CreativeQA:来自创意短视频平台的1465个反常识创意视频。
3. MagicQA:来自网络平台的1565个难以理解的魔术视频。
针对每个子集,FunQA设计了3个核心任务:
1. 反直觉时间戳定位:找到视频中关键反直觉事件的时间点。
2. 详细视频描述:用语句描述视频内容。
3. 反直觉推理:解释视频中反直觉的原因。
此外还有视频标题生成等扩展任务。
在多个模型上进行测试表明,当前模型在FunQA任务上的表现普遍不佳,关键原因包括:
1. 难以准确理解长视频内容和上下文信息。
2. 缺乏推理“常识”,无法理解违反直觉的内容。
3. 不同类型视频的理解能力差异很大。
4. 评估指标不足,难以测量深度理解。
研究者因此提出,后续工作可以从提升模型大小、改进数据质量、优化训练策略等方面入手,以提高模型在FunQA任务上的表现。总体而言,FunQA提供了一个全新且富有挑战的视频理解基准,可以推动计算机视觉研究的发展。
汤姆猫:类Sora工具将有助于公司低成本打造AI应用
近日,汤姆猫在机构调研时表示,在内容生产上,海外子公司已与OpenAI、Google、StabilityAI等公司的人工智能模型开展合作,借助人工智能大模型开展营销素材、动画素材、产品创意素材等内容的创作。其中,在生成视频领域,公司已利用Pika、Runway、StabilityDiffision等工具制作了部分视频素材,探索该等素材在营销、动画制作领域的应用。站长网2024-02-27 09:53:050000Runway推新功能运动笔刷 随手一涂静图变动图
要点:Runway推出的新功能「运动笔刷」在Gen-2视频生成工具中上线,无需输入文字,只需手势操作,即可使图片动起来,是一种可控制生成内容移动的新方法。Gen-2是市场上第一个公开可用的文本到视频模型,用户只需几个prompt和手势即可生成像样的视频,颠覆了复杂的视频编辑软件和冗长的制作流程。站长网2023-11-13 21:44:470002谷歌推出ASPIRE框架 让大模型具备自我判断意识
谷歌最近推出了一项名为ASPIRE的自适应评估框架,旨在帮助大型语言模型在面对置信度较低的样本时做出正确的判断。这个框架的核心技术思路是基于自我评估的选择性预测,通过任务定向微调、答案采样和自我评估学习三大模块来实现。论文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf?ref=maginative.com站长网2024-02-07 09:40:450000理想汽车第400座超充站上线!年底即将达成超2000座
快科技5月16日消息,理想汽车近日宣布,其第400座超级充电站已正式投入运营,这一成就仅用了392天时间实现。公司进一步透露,计划到今年年底建设超过2000座超级充电站,安装超过1万根充电桩。2024年,理想汽车计划在国家级高速干线里程的覆盖率超过70%,1-3线城市核心城区覆盖率超过90%。理想汽车还表示,目前已经成功构建了超过20条热门的充电旅游路线。站长网2024-05-16 12:04:440001心理医生使用AI制作儿童深度伪造色情图像被判入狱
划重点:🔍北卡罗来纳州的一名儿童精神病学家被判入狱,因为他使用人工智能软件制作儿童深度伪造色情图像。🔍该儿童精神病学家被控使用网络的人工智能软件,对患者进行秘密录音并制作非法图像和视频。🔍检察官表示,这种利用技术伤害儿童的行为是邪恶的,该儿童精神病学家被判处40年监禁和30年监管释放。站长网2023-11-10 09:51:360001