OneChart:仅2亿参数,专门用于图表信息结构化提取
划重点:
🔍 提出了一种新的工具 OneChart,旨在解决图表结构提取中的挑战。
📊 引入了一种辅助标记,通过它提升了数值部分的文本输出。
🏆 OneChart 在图表结构提取任务中取得了最先进的性能表现。
在图表解析领域,由于样式、数值、文本等的多样性,存在着重大挑战。即使是拥有数十亿参数的先进大型视觉 - 语言模型(LVLMs)也难以令人满意地处理此类任务。
为了解决这一问题,研究团队提出了一种可靠的工具 OneChart,专门用于图表的结构提取。它捕获了图表标题、来源和对齐的数值数据等重要组成部分,并将它们输出为 Python 字典格式,可以有效地促进下游图表推理任务。
为了增强文本输出中的数值部分,研究团队引入了一个辅助标记以及一个额外的解码器。这个辅助标记允许后续的文本标记通过因果关注来捕获增强的数值特征。此外,借助一个辅助标记,他们设计了一个可靠的检查机制,在推断过程中通过提供生成内容的自一致性距离来确保输出的可信度。
此外,研究团队还提出了一个大规模的图表转换为字典的基准测试。这些图表涵盖了广泛的主题和类型,并包括英语和中文内容。实验证明,尽管只有2亿 参数,OneChart 在结构提取方面实现了最先进的性能。在缺乏数值标注的图表中,与次优方法相比,其平均精度(AP)提高了19.1% ~29.4%。作为图表解析代理,它还为下游的 ChartQA 基准测试带来了11.2% 的准确率增益,对于 LLaVA-1.6和 LLaVA-1.5分别提高了32.6% 和11.2%。
在传统的图表问答基准测试中,通常局限于从图表中查询小的、孤立的信息片段,例如单个数值,这可能无法有效地衡量模型提取和理解图表中呈现的全部数据的能力。相比之下,OneChart 旨在建立一个以结构提取(SE)任务为中心的基准测试,直接评估模型将图表图像转换为结构化 Python 字典表示的准确性。它包括五个数据集部分,其中一个是 ChartY-zh(2,048个样本),其他是 ChartQA-SE(1,509个样本)、PlotQA-SE(33,657个样本)、ChartX-SE(2,360个样本)、ChartY-en(4,000个样本)。
研究团队提出的 OneChart 在图表结构提取方面取得了令人瞩目的成绩,为解决图表解析中的挑战提供了新的思路和方法。
产品入口:https://top.aibase.com/tool/onechart
罗永浩微博改名了:罗永浩钮祜禄 火力全开强势回归社交媒体
罗永浩近日在微博上活跃起来,宣布自己将重返社交媒体界,并在九个不同的平台上开设了账号,承诺将以"火力全开"的姿态回归。在网友的建议下,他甚至将自己的微博账号从"罗永浩的辟谣号"更改为"罗永浩钮祜禄",钮祜禄氏是满洲八大姓之一,这一姓氏在清宫剧《甄嬛传》中也有所体现,女主角甄嬛被赐予此姓,象征着身份的提升。站长网2024-08-22 16:03:350000苹果官网罕见大降价 iPhone 15系列最高立减500元
站长之家(ChinaZ.com)1月15日消息:苹果中国官网今日公布了迎新春限时优惠活动预告,此次活动将于1月18日至21日进行。站长网2024-01-15 15:25:540000《使命召唤》将使用AI功能监控玩家语音聊天内容
文章概要:1.游戏公司Activision与Modulate合作,在游戏中使用AI监控语音聊天。2.新的监控系统ToxMod可以实时识别仇恨言论等违规内容。3.ToxMod首先在美国测试,11月全球发布。最近,游戏公司Activision宣布将在其旗舰射击游戏《使命召唤》系列中引入人工智能语音聊天审查系统。该系统由人工智能公司Modulate研发,名为ToxMod。站长网2023-08-31 10:03:460000抖音AI内容生成系统软著权获批
天眼查App显示,近日,抖音视界有限公司“基于人工智能的内容生成系统”软件著作权获登记批准,当前版本号为V1.0。抖音视界有限公司成立于2012年7月,法定代表人为张利东,注册资本3亿美元,由抖音集团(香港)有限公司全资持股。站长网2023-12-20 11:36:200000Meta 即将发布商用版 LLaMA 大模型以追赶微软支持的 OpenAI 和谷歌等竞争对手
Meta即将发布其人工智能模型的商业版本,使初创企业和企业能够在该技术基础上构建定制软件。此举将使Meta能够与得到微软支持的OpenAI和谷歌竞争,后者正在AI赛道上快速发展生成式人工智能。站长网2023-07-14 09:50:340000