GPT-4充当“规划师、审计师”,颠覆性双层文生图表模型
DALL-E3、Midjourney、Stable Diffusion等模型展现出了强大的创造能力,通过文本便能生成素描、朋克、3D、二次元等多种类型的高质量图片,但在生成科学图表(柱状、直方、箱线、树状等)方面却略显不足。
这是因为模型在生成图表时会遗漏重要的对象,生成错误的对象关系箭头,以及产生不可读的文本标签,缺乏对对象的精细布局控制。尤其是当多个对象存在复杂的箭头或线段关系时,无法渲染清晰可读的文本,而这两点对于图表生成至关重要。
为了解决这两大难题,北卡罗来纳大学提出了DiagrammerGPT框架。首先,使用GPT-4充当“规划师”,根据文本描述生成图表的布局规划信息。
规划信息包含实体(对象和文本标签)、实体之间的关系(箭头、线段等)以及实体的布局信息(边界框坐标)。然后再用GPT-4充当“审计师”来审核整个规划计划,进行图表细节优化。
在图表生成阶段,通过DiagramGLIGEN扩散模型能够根据图表规划生成精准图表,并用Pillow库对文本标签进行渲染提升精准度。
根据测试数据显示,在多个量化指标上,DiagrammerGPT 显著优于Stable Diffusion、VPGen 和 AutomaTikZ等模型生成的图表。
在图表与文本相关性和对象关系的准确性评估方面,DiagrammerGPT分别取得36%和48%的优于基准模型的评分。该研究对于文本生成高精准图表模型来说,有着重大突破。
开源地址:https://github.com/aszala/DiagrammerGPT
论文地址:https://arxiv.org/abs/2310.12128
,时长00:32
图表规划
DiagrammerGPT框架的最大创新在于,利用GPT-4的强大自然语言处理能力指导图表布局生成。为了生成更准确的规划,还设计了闭环反馈机制。
一个GPT-4充当“规划师”生成初始规划,另一个 GPT-4充当“审计师”,评估规划的准确性并提供反馈。而规划师可以根据反馈调整规划布局。
1)初始图表规划生成
研究人员对GPT-4通过10个语境学习样例进行了训练,每个样例都包含完整的图表文本描述、实体、关系和布局信息。规划包含3个要素:
实体:对象和文本标签的列表。对象指图表中的图像元素,文本标签指对象的文字说明。
关系:实体之间的关系,比如箭头连接、线段连接、文本标签标注对象等。
布局:所有实体的边界框坐标信息,[x,y,w,h]格式。
2)规划优化
为进一步提高规划质量,提出了规划师、审计师的闭环反馈机制进行迭代优化。其中GPT-4充当规划师,另一个GPT-4充当审计师。审计师会检查规划与文本描述是否匹配,提供反馈意见;规划师根据反馈更新规划。
其中,审计师GPT-4也是通过特定语境学习进行训练的,以提供有效的反馈意见。两者训练使用不同的语境学习样本。
图表生成
研究人员通过Diagram GLIGEN扩散模型用于图表生成,并加入了门控自注意力层,可以利用图表规划的布局信息指导图像生成。
与原始的GLIGEN模型只处理物体不同,DiagramGLIGEN可同时处理文本标签和箭头关系作为布局输入。DiagramGLIGEN在AI2D-Caption数据集上进行了训练,使其能生成特定领域的科学图表。
但由于扩散模型本身文本渲染效果不佳,无法输出清晰可读的文本,研究人员使用Pillow库显式渲染文本标签,提升文本的清晰度。
训练、评估数据集
研究人员基于AI2D科学图表数据集构建了AI2D-Caption数据集,用于文本到图表生成的训练和数据测试。AI2D包含约4900张科学图表图像,涵盖天文、生物、工程等领域。
其中选取了105张图表,使用大语言模型为每个图表生成详细的图像标题和对象描述。其中30张作为语言模型的语境学习样本,75张作为测试集。
相比原始AI2D只有简单的标题,AI2D-Caption提供了更丰富的文本描述,包括完整的图表标题和每个对象的详情。
多个基准测试数据显示,在VPEval上,DiagrammerGPT的对象、数量、关系和文本渲染准确性均明显优于基准模型,从多个方面证明了其生成图表的高质量。
在图像字幕上,DiagrammerGPT生成的图表能产生更相关的标题,标题与真值更加接近。在CLIPScore上,DiagrammerGPT的图像-文本和图像-图像相似度更高,更接近真值图表和标题。还进行了人类评估,多数人表示,更喜欢DiagrammerGPT生成的图表。
本文素材来源北卡罗来纳大学论文,如有侵权请联系删除
黑客大规模恶意注册与ChatGPT相似的域名 超65万个
**划重点:**1.🌐**恶意利用ChatGPT名声:**黑客注册大量与ChatGPT相似的域名,借助模型信誉欺骗用户,引发下载恶意内容、泄露敏感信息等问题。2.🌐**Cl0p勒索软件攻击:**俄罗斯Cl0p勒索软件组织利用MOVEit的零日漏洞,攻击全球企业和美国机构,新策略包括在勒索未付款时将数据泄露到公开网络。0000开源论文查询工具DocsGPT登顶GitHub热榜 支持多种文档类型
要点:DocsGPT是一个开源论文查询工具,支持多种文档类型,包括TXT、PDF、ZIP、MD和RST,使用大型模型、Meta相似性搜索库Faiss和LangChain技术来驱动。DocsGPT提供多种模式供用户选择,包括默认的GPT-3.5模式和需要购买Pro的GPT-4模式,还有专门优化的DocsGPT-7b模型。站长网2023-10-07 14:14:530000苹果每天在对话式人工智能上花费数百万美元:Ajax 聊天机器人比初始版本的 ChatGPT 3.5 更强大
站长之家(ChinaZ.com)9月7日消息:据TheInformation的一份新报告显示,苹果公司在人工智能方面的支出大幅增加。该报告重点介绍了苹果的人工智能和机器学习研究。站长网2023-09-07 08:57:000000讯飞星火APP重新上架 称将在8月15日举办讯飞星火认知大模型V2.0升级发布会
科大讯飞在投资者平台回应称,讯飞星火认知大模型V2.0升级发布会将于8月15日举办,届时会发布多模态生成、代码生成能力及行业产品等多项能力及应用,欢迎关注。据了解,昨日,包括讯飞星火在内的多个AIGC相关App在苹果应用商店下架。当时,科大讯飞工作人员表示,目前讯飞星火App下架的原因还不清楚,正在和平台的同事进行沟通。而今日,科大讯飞旗下讯飞星火APP在苹果应用商店重新上架。站长网2023-08-02 09:55:130001挖一挖!微信8.0.37内测版更新,3个新变化
5月16日晚间,安卓微信迎来了8.0.37测试版更新。本次更新距离上次8.0.35正式版本更新将近一个月的时间,直接跳过了8.0.36版本。相信很多小伙伴好奇安卓微信8.0.37内测版有哪些新的变化,接下来就一起看看吧~搜索功能优化打开微信,任意打开一篇文章或者网页,会发现在右上角新增了放大镜搜索按钮。只要点击就可以快速搜索内容,但会直接跳转到微信搜一搜界面,而不是搜索当前页面的内容。站长网2023-05-23 18:13:300001