快手开源KwaiAgents系统 性能超越GPT-3.5
要点:
1. 快手与哈尔滨工业大学联合研发的「KwaiAgents」系统实现了7B/13B模型的开源,超越了GPT-3.5的效果。
2. 「KwaiAgents」包含轻量级AI Agents系统(KAgentSys-Lite)、具有通用能力的大模型(KAgentLMs)、以及开箱即用的自动化评测Benchmark(KAgentBench)。
3. 通过Meta-Agent Tuning(MAT)方法,模型在训练中引入更多Agent Prompt模板,提升大模型在任务规划、工具使用、反思等能力,从而达到超越效果。
近日,快手联合哈尔滨工业大学成功开源了「KwaiAgents」系统,实现了7B/13B模型的超越效果。这一成果的背后,是通过Meta-Agent Tuning(MAT)方法提升大模型的通用能力。整个项目包含了系统、模型、以及评测三个方面的内容,并通过GitHub完全开源,为研究者和开发者提供了极大的便利。
项目地址:https://github.com/KwaiKEG/KwaiAgents
该系统以大模型为认知内核,配以记忆机制和工具库,形成迭代式自动化系统。记忆机制包含知识库、对话和任务历史三类记忆,通过混合向量检索和关键词检索技术,在每一轮对话中检索所需信息。工具集包含事实性增强工具,异构的搜索和浏览机制能够汇集多个来源的知识,包括网页、文本百科和视频百科。自动化Loop中,系统在一轮对话中接收问题,进行记忆的更新和检索,调用大模型进行任务规划,根据需要调用工具,最后综合历史信息给出回答。
为避免训练中单一模板引起的过拟合问题,团队提出了MAT方法。该方法分为两阶段:模板生成阶段和指令微调阶段。在模板生成阶段,通过设计Meta-Agent,生成实例化的Agent Prompt模板,候选结果与开源模板进行对比打分,从而筛选出高质量的Agent Prompt模板库。在指令微调阶段,基于上万的模板构建了超过20万的Agent调优指令微调数据。通过这一方法,模型在任务规划、工具使用、反思等方面的能力得到提升,同时避免了过度依赖单一模板的问题。
KAgentBench通过人工精细化标注的数据,提供开箱即用的Agent能力自动化评测Benchmark。该Benchmark涵盖不同种类的能力构造输入,每个query配备多个模板和多个人工编辑的真实回答,综合评测准确性和泛化性。评测结果显示,通过MAT调优后,7B-13B模型在各项能力上均有显著提升,超越了GPT-3.5的效果。
团队表示,AI Agents是一条具有潜力的道路,未来将持之以恒地沉淀核心技术,并积极探索Agents技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。这一开源项目为整个社区注入了新的活力,为研究者提供了丰富的资源和参考。
首批Vision Pro退货潮调查:缺乏应用 外形笨重
在2月初,美国市场上架了售价3499美元起步(大约2.5万元人民币)的苹果VisionPro。这款产品一经推出,立即在美国引发了抢购热潮,甚至在国内,由于需求高涨,一些非官方渠道的价格一度被炒至10万元左右。然而,随着时间的推移,现在多个国内平台的代购价格已经降低至3万至4万元。尽管价格有所降低,但是最近的一些调查显示,这款苹果的新产品可能面临一些挑战。站长网2024-02-22 08:16:530000AI网站生成器10web计划将AI建站引入WordPress
划重点1.🚀10web通过整合Llama2、GPT-4和StableDiffusion等生成AI模型,致力于提高WordPress网站建设的易用性。2.💰公司以每个网站或流量收费的方式实现盈利,计划引入支付系统,让用户从中收费,并从中抽取佣金。3.📈基于亚美尼亚丰富而廉价的工程师人才,10web正取得成功,并计划在未来一年内实现2500万美元的年度重复收入。站长网2024-02-23 18:11:370003推荐算法的真实价值,就藏在生活场景里
2011年之后,史铁生一度“隐身”在了作品里,透过《病隙碎笔》、《我与地坛》、《命若琴弦》等文学作品,一代人试图去拼凑他的一生。但在过去一年,史铁生和他的作品“出圈”,走向了更大范围的群体。数据显示抖音平台上,过去一年史铁生相关视频累计达到了18.6万个,增长192%,视频总时长增长415%,总分享的次数增加了51%。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-08-22 09:22:010000国产短剧出海用AI换脸变外国人:至少降低20%成本
快科技1月31日消息,据媒体报道,目前不少国产短剧为了出海找到了以低成本获得高回报的新思路使用AI将华人演员的面孔替换为外国演员的模样。据了解,在国内制作一部短剧需要50万元到70万元的成本,而在海外,制作成本将会达到100万元到150万元左右,甚至高出两倍甚至更多。0000“大海捞针”实验验证RAG+GPT-4 Turbo模型卓越性能 只需4%的成本
要点:1.RAGGPT-4Turbo实现了性能飙升,只需4%的成本,通过“大海捞针”实验证明其卓越效果。2.下一阶段的LLM重点在于生成超具体的响应,通过上下文窗口填充、RAG和微调等技术实现不同使用情境下的个性化响应。3.在“大海捞针”实验中,RAG模型表现出色,准确性接近完美,成本仅为GPT-4Turbo的4%,而延迟方面也有良好表现。站长网2023-12-08 14:57:150002