北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%
站长网2023-11-07 22:05:350阅
要点:
1. 北大和微软亚洲研究院的研究人员提出了首个多轮多模态PPT任务完成基准PPTC,以评估大型语言模型在复杂多模态环境中的性能。
2. 评估表明,GPT-4是在创建新PPT文档任务中表现最强的模型,但仍然存在挑战,如错误累积、处理长PPT模板的能力差,以及多模态指令的复杂性。
3. 进一步的算法和方法如计划算法和API选择算法可以提高大模型在PPTC上的性能,但思维树等方法并没有显著改进性能。
北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC,旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。
他们通过创建包含数百个多模态指令的数据集,挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示,GPT-4在创建新PPT文档任务中表现良好,达到了75%的轮次层面正确率,但仍然面临三个主要挑战。
项目地址:https://github.com/gydpku/PPTC
首先,错误累积导致大模型在单元层面的表现不佳。其次,大模型处理长PPT模板的能力有限,导致编辑任务的错误。最后,多模态指令增加了任务的复杂性,特别是涉及到空间位置操作的指令。
研究人员还尝试了不同的算法和方法,如计划算法和API选择算法,以提高性能,但发现思维树等方法并没有明显改进性能。这项研究为理解大型语言模型在多模态环境中的表现提供了有益的见解,同时也提出了未来的挑战和改进方向。
0000
评论列表
共(0)条相关推荐
苹果推出新款iPad M4处理器加入AI PC竞赛
苹果公司近日推出了搭载M4处理器的新款iPad,标志着其在人工智能PC竞赛中的强势入场。尽管面临高通、英特尔和英伟达等竞争对手的激烈竞争,苹果依然自信宣称其NPU为市场最强。站长网2024-05-08 19:50:430000未来MacBook Pro将升级OLED屏:mini LED终究要退出舞台
快科技11月11日消息,分析师JeffPu透露,苹果即将推出首款采用OLED屏的iPadPro,并在未来三年内,将OLED屏覆盖到MacBook产品线上。JeffPu指出,苹果计划在2026年推出OLED屏MacBookPro,提供14和16英寸两种尺寸,后续再推出OLED屏MacBookAir。站长网2023-11-12 10:29:100000在AI这个重要问题上,钉钉没有骗我
从ChatGPT发布至今已经整整半年了。在这半年中,国内几乎每家科技大厂都在做自己的生成式AI大模型——就在本周,我又看到了两家科技公司发布“自研通用大模型”。然而,由于监管、技术等多方面原因,国内用户迄今尚未真正享受到生成式AI的成果,也无法分辨谁真谁假、谁在投入而谁又是在玩概念。在我的朋友圈,转发各种“大模型发布会”的人也越来越少了……很重要的原因之一就是对大模型有点审美疲劳,也怕被忽悠了。站长网2023-06-01 14:54:570001市场监管总局:外卖平台要科学设置起送价格
昨天,市场监管总局和商务部联合印发了《关于发挥网络餐饮平台引领带动作用有效防范外卖食品浪费的指导意见》。《指导意见》明确了一系列规范措施,包括引导平台优化协议规则、完善凑单满减机制、规范外卖食品标准、规范平台外卖配送服务等。网络餐饮平台也要科学设置起送价格、满减促销规则,优化满减凑单机制,不将主食纳入满减优惠展示范围,最大限度避免食品浪费。站长网2023-06-15 10:37:020000月GMV超8000万,抖音食品自播第一是如何炼成的?| 独家对话大希地创始人
谁是抖音最会卖美食的直播间?据新榜旗下抖音数据工具新抖统计,今年4-6月,“大希地官方旗舰店”连续多次登上抖音品牌自播榜食品饮料赛道Top1。截至发稿前,“大希地官方旗舰店”抖音店铺的累计销量达766.4万。图源:新抖随着直播电商进入深水区,深挖细分用户、主打垂类赛道正成为越来越多从业者的选择。站长网2023-08-17 18:17:100000