首页站长资讯UCLA推出Chameleon框架大模型表格数学推理准确率达98.78%

UCLA推出Chameleon框架大模型表格数学推理准确率达98.78%

站长网2023-12-12 14:48:486阅

要点:

UCLA推出Chameleon框架，通过多工具融合，包括LLMs、视觉模型、搜索引擎等，解决大型语言模型在实时信息获取和精确数学推理上的不足，在表格数学推理任务上达到98.78%准确率。

Chameleon框架核心在于LLM规划器生成自然语言程序，通过灵活组合多工具，如科学问答任务中以86.54%准确率超越现有模型，在表格数学推理任务中更是达到惊人的98.78%准确率。

Chameleon模型的灵感来源于变色龙，象征着大型语言模型在执行外部工具组合推理任务时的多功能性和适应性，引起广泛关注并获得学术认可。

在NeurIPS2023上，UCLA等机构发布的Chameleon框架吸引了广泛关注。该框架通过融合多种工具，包括LLMs、视觉模型、搜索引擎、Python功能及基于规则的模块，解决了大型语言模型在实时信息获取和数学推理方面的不足。

Chameleon的核心在于通过LLM规划器生成自然语言程序，找到最佳工具组合，以达到精确推理的目的。该框架在科学问答任务和表格数学推理任务上表现卓越，特别是在表格数学推理任务上，准确率达到了惊人的98.78%。

项目地址:https://chameleon-llm.github.io/

Chameleon的灵感来源于变色龙，象征着大型语言模型在执行外部工具组合推理任务时的多功能性和适应性。与其他工作相比，Chameleon在工具多样性和调用灵活性方面具有显著优势。

其工具箱支持LLM模型、视觉模型、网络搜索引擎、Python函数以及基于规则的模块，实现了多种工具之间的自然语言通信。相较于现有工作，Chameleon模型允许以类似自然语言的方式生成不同工具的调用组合，无需复杂的程序设计，增加了用户友好性。

Chameleon模型由工具箱和LLM规划器构成，工具箱包含各种技能的工具，如图像理解、知识理解、数学推理、表格推理和问答。LLM规划器基于大型语言模型，通过提示学习和语境学习能力，生成自然语言形式的程序，从而实现对工具箱中的工具进行组合和调用。Chameleon模型的评测表现在多模态推理任务上进行，如科学问答和表格数学推理，取得了令人瞩目的成绩。

Chameleon框架在多工具融合、自然语言程序生成和多模态推理任务上展现出卓越的性能，为大型语言模型在复杂任务中的应用提供了新的思路和解决方案。其灵活性、适应性和用户友好性使其在学术界和开发者社区中受到瞩目。

UCLA推出Chameleon框架大模型表格数学推理准确率达9878

0006

评论列表

共(0)条

相关推荐

站长资讯
幻兽帕鲁5天创收15亿被指用AI量产设计
上周，一款名为《幻兽帕鲁》（Palworld）的游戏在24小时内销售额超过了200万，创下了185万的历史在线人数峰值。该游戏通过收集神奇生物“帕鲁”融合了塞尔达的开放世界探索和宝可梦的捕捉体系等多个热门游戏玩法。然而，一些网友质疑这款游戏是否采用了AI协助设计。有用户整理了游戏中“帕鲁”与宝可梦的美术设计对比图，评论区有人认为AI可能参与了角色设计。
站长网2024-01-30 15:26:18
0000
“甲亢哥”中国行，一场人文与科技的偏见粉碎
谁能想到，一位海外创作者的中国行直播，掀起了2025年全球网友的第一场网络“狂欢”。要说全球最火的视频创作者，以狂野抽象风格著称的美国网红Speed一定会有一席之地。他的本名叫小达伦·沃特金斯（DarrenWatkinsJr.），由于热衷于抽象和整活，在视频和直播中表现得过于亢奋和激动，被广大中国网友戏称为“甲亢哥”。
站长网站长资讯2025-04-07 09:40:10
0000
站长资讯
Voicepanel：利用AI进行语音或视频采访
Voicepanel是一个利用AI进行语音或视频采访的产品，帮助企业以较低成本获取客户反馈，远比传统的人工访谈更便宜。其使用户能够在短时间内进行大量对话，获取比传统调查更深入的洞察。产品入口：https://top.aibase.com/tool/voicepanel
站长网2024-03-07 18:01:07
0000
站长资讯
摩尔线程复原阿里的单图跳舞项目Moore-AnimateAnyone 用户可训练自己的AnimateAnyone模型
日前，摩尔线程的单图跳舞项目已经复原，并且已经开源训练代码。这意味着你现在可以使用自己的AnimateAnyone模型进行训练。另外，基于摩尔线程开源的版本制作了ComfyUI节点，并且提供了基础的工作流。这意味着现在可以在ComfyUI中非常简单地让单图跳舞了。这一突破将为动画创作带来新的可能性，让更多人能够参与到动画创作中来。
站长网2024-01-22 10:15:09
0001
站长资讯
小红书线下2.0：不止一个大众点评
与线下的强相关性是小红书社区内容的特点之一，也是小红书实现增长的其中一个能量来源。基于此，举办与线上有映照关系、且最终能反哺线上的线下活动，成为小红书做社区运营时一个越来越习惯的动作，且越来越有手感。
站长网2024-03-06 15:49:29
0000