快手开源KwaiAgents系统性能超越GPT-3.5

站长网2023-12-28 10:30:561阅

要点:

1. 快手与哈尔滨工业大学联合研发的「KwaiAgents」系统实现了7B/13B模型的开源，超越了GPT-3.5的效果。

2. 「KwaiAgents」包含轻量级AI Agents系统（KAgentSys-Lite）、具有通用能力的大模型(KAgentLMs)、以及开箱即用的自动化评测Benchmark(KAgentBench)。

3. 通过Meta-Agent Tuning（MAT）方法，模型在训练中引入更多Agent Prompt模板，提升大模型在任务规划、工具使用、反思等能力，从而达到超越效果。

近日，快手联合哈尔滨工业大学成功开源了「KwaiAgents」系统，实现了7B/13B模型的超越效果。这一成果的背后，是通过Meta-Agent Tuning（MAT）方法提升大模型的通用能力。整个项目包含了系统、模型、以及评测三个方面的内容，并通过GitHub完全开源，为研究者和开发者提供了极大的便利。

项目地址:https://github.com/KwaiKEG/KwaiAgents

该系统以大模型为认知内核，配以记忆机制和工具库，形成迭代式自动化系统。记忆机制包含知识库、对话和任务历史三类记忆，通过混合向量检索和关键词检索技术，在每一轮对话中检索所需信息。工具集包含事实性增强工具，异构的搜索和浏览机制能够汇集多个来源的知识，包括网页、文本百科和视频百科。自动化Loop中，系统在一轮对话中接收问题，进行记忆的更新和检索，调用大模型进行任务规划，根据需要调用工具，最后综合历史信息给出回答。

为避免训练中单一模板引起的过拟合问题，团队提出了MAT方法。该方法分为两阶段:模板生成阶段和指令微调阶段。在模板生成阶段，通过设计Meta-Agent，生成实例化的Agent Prompt模板，候选结果与开源模板进行对比打分，从而筛选出高质量的Agent Prompt模板库。在指令微调阶段，基于上万的模板构建了超过20万的Agent调优指令微调数据。通过这一方法，模型在任务规划、工具使用、反思等方面的能力得到提升，同时避免了过度依赖单一模板的问题。

KAgentBench通过人工精细化标注的数据，提供开箱即用的Agent能力自动化评测Benchmark。该Benchmark涵盖不同种类的能力构造输入，每个query配备多个模板和多个人工编辑的真实回答，综合评测准确性和泛化性。评测结果显示，通过MAT调优后，7B-13B模型在各项能力上均有显著提升，超越了GPT-3.5的效果。

团队表示，AI Agents是一条具有潜力的道路，未来将持之以恒地沉淀核心技术，并积极探索Agents技术与快手业务的结合，尝试更多有趣、有价值的创新应用落地。这一开源项目为整个社区注入了新的活力，为研究者提供了丰富的资源和参考。

快手开源KwaiAgents系统性能超越GPT3 5

0001

评论列表

共(0)条

相关推荐

站长资讯
Adobe Photoshop网页版正式推出包含AI工具但暂无免费版本计划
要点:1、Photoshop网页版正式推出，包含桌面版的Firefly驱动生成式填充等人工智能功能。2、Photoshop网页版提供简化用户界面，方便新用户上手使用。3、Adobe暂无计划推出Photoshop网页版的免费版本。
站长网2023-09-28 09:48:19
0000
站长资讯
互动小说“嫁接”短剧，能帮ReelShort扳回一局吗？
6月一开始，枫叶互动旗下的ReelShort在应用内开辟了全新的InteractiveGame版块，并火速上线了一部名为《PregnantbyMyEX’sDad》的互动短剧。所谓互动短剧，可简单理解为互动小说和真人短剧的结合体，玩家可以通过文字选项决定故事走向，体验上更有代入感。而这种互动短剧的玩法，也是目前我们看到的头一例。
站长网2024-06-07 18:53:51
0000
站长资讯
ChatGPT高三考试仅物理得零分网友：原来AI也会偏科
ChatGPT自发布以来就风靡全球，有着广阔的前景和良好的发展前景。最近，在搜狐的创作者大会上，与会者讨论了ChatGPT对知识直播领域的影响。同济大学物理教授吴於人指出:“有人用高三的卷子考验了ChatGPT，英语、历史和文字性的内容做得非常好，成功率非常高，但只有物理得了零分。”
站长网2023-06-02 00:11:23
00017
刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座
一大早，Llama4重磅发布了!Meta官宣开源首个原生多模态Llama4，首次采用的MoE架构，支持12种语言，首批发布一共两款:Llama4Scout:共有1090亿参数，17B活跃参数，16个专家，1000万上下Llama4Maverick:共有4000亿参数，17B活跃参数，128个专家，100万上下文
站长网站长资讯2025-04-07 09:25:22
0000
站长资讯
广电总局公布11月备案网络微短剧完蛋我被帅哥包围了在列
据上证报报道，广电总局发布的2023年11月全国重点网络微短剧规划备案公示情况显示，11月共备案网络微短剧共305部、11245集。其中，一些知名企业和机构也参与了备案，如北京无忧微视传媒有限公司、湖南快乐阳光互动娱乐传媒有限公司、中国移动集团下属咪咕数字传媒有限公司等。此外，中广天择传媒股份有限公司当月备案了一部名为《完蛋!我被帅哥包围了!》的短剧，共60集。
站长网2023-12-05 14:10:14
0000