北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%
站长网2023-11-07 22:05:350阅
要点:
1. 北大和微软亚洲研究院的研究人员提出了首个多轮多模态PPT任务完成基准PPTC,以评估大型语言模型在复杂多模态环境中的性能。
2. 评估表明,GPT-4是在创建新PPT文档任务中表现最强的模型,但仍然存在挑战,如错误累积、处理长PPT模板的能力差,以及多模态指令的复杂性。
3. 进一步的算法和方法如计划算法和API选择算法可以提高大模型在PPTC上的性能,但思维树等方法并没有显著改进性能。
北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC,旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。
他们通过创建包含数百个多模态指令的数据集,挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示,GPT-4在创建新PPT文档任务中表现良好,达到了75%的轮次层面正确率,但仍然面临三个主要挑战。
项目地址:https://github.com/gydpku/PPTC
首先,错误累积导致大模型在单元层面的表现不佳。其次,大模型处理长PPT模板的能力有限,导致编辑任务的错误。最后,多模态指令增加了任务的复杂性,特别是涉及到空间位置操作的指令。
研究人员还尝试了不同的算法和方法,如计划算法和API选择算法,以提高性能,但发现思维树等方法并没有明显改进性能。这项研究为理解大型语言模型在多模态环境中的表现提供了有益的见解,同时也提出了未来的挑战和改进方向。
0000
评论列表
共(0)条相关推荐
三星智能指环 Galaxy Ring 不太可能在 2024 年第一季度随 Galaxy S24 系列正式上市
站长之家(ChinaZ.com)10月8日消息:据韩国媒体TheElec报道,传闻中将于2024年1月与GalaxyS24系列一同发布的三星GalaxyRing,现在预计将在2024年第三季度或2025年第一季度发布。站长网2023-10-08 17:36:560000曝苹果将推出新一代AirPods Pro耳机!ANC降噪效果大提升
快科技8月28日消息,据爆料者Kosutami透露,苹果即将推出全新的AirPodsPro3耳机,并将提供好得多”的主动降噪(ANC)功能,相较于前代产品AirPodsPro2,其降噪效果预计将更加出色。此前,彭博社MarkGurman之前也提到了苹果下一代AirPodsPro的相关内容,称苹果计划在2025年某个时候推出这款AirPodsPro3。站长网2024-08-28 23:34:470000苹果明日凌晨发布第四财季财报 营收有望实现增长
据外媒报道,苹果公司将于美国时间11月2日发布2023财年第四财季的财报。这一季度通常是苹果营收开始回升的时期,尤其在秋季新iPhone上市的推动下,营收预计将较上一财季更高。分析师们的平均营收预期为892.5亿美元,范围在878亿到921亿美元之间。苹果在上一财年的第四财季营收为901.46亿美元,因此分析师们预计苹果在2023财年第四财季的营收同比也有望增长。站长网2023-11-02 11:00:230000疯狂小杨哥下场,头部网红和MCN抢分短剧蛋糕
短剧已然成为了众人哄抢的“香饽饽”。近日,小杨哥公司“三只羊网络”入场拍短剧的消息引发热议。尤其是小杨哥之前宣布减少直播带货、淡出直播间,不免让人猜测,短剧或是他下一个发力的赛道。实际上,三只羊网络并非首个入局短剧的MCN机构,无忧传媒、麦芽传媒等机构早已入场,并找到了自己擅长的方式,做起了这笔时间短见效快的“划算生意”。站长网2024-04-24 14:40:100000真我12 Pro系列官宣:本月在美国拉斯维加斯发布
站长之家(ChinaZ.com)1月9日消息:realme徐起宣布,真我12Pro系列将于本月在美国拉斯维加斯正式亮相。这一消息引起了广泛关注,因为真我12Pro系列被视为realme的一款旗舰级新品。0000