利用合成数据微调ChatGPT超越GPT-4摘要性能 降低63%成本和提升11倍速度
文章概要:
- 利用链式密度提示微调ChatGPT在新闻摘要任务上超过GPT-4零样本表现,接近GPT-4链式提示。
- 通过ScoreStringEvalChain和改进的PairwiseStringEvalChain等自动评估链实现人类水平的量化评估。
- 微调ChatGPT比GPT-4零样本快11倍且便宜63%,比GPT-4链式提示快33倍且便宜84%。
近日,Elicit公司机器学习工程师Charlie George在LangChain博客上发表文章介绍了他们使用合成数据微调ChatGPT在新闻摘要任务上超越GPT-4的研究成果。
文章提到,尽管GPT-4被公认为世界上最强大的语言模型,但其调用限制、高成本和高延迟也限制了其实际应用。为解决这一问题,一些开发者转而使用ChatGPT等小模型,但小模型的表现通常不如GPT-4。文章介绍了微调的思路,即调整模型参数以更好地适应具体任务,但收集人类标注数据昂贵且耗时,而传统评估指标如困惑度也无法准确反映用户体验。
为解决数据问题,采用了一种合成数据生成方法,即使用GPT-4通过链式密度(CoD)提示逐步改进其生成的摘要。然后,使用LangSmith平台收集这些改进后的摘要作为训练数据,微调ChatGPT。
在评估方面,文章认为传统的BLEU和ROUGE指标往往不能准确捕捉现代语言模型的细微差异。相比之下,人工评估虽可靠但耗时耗力。最佳方案是开发自动化评估系统,但也需要人工验证其有效性。研究者已经开发了与真人高度一致的自动化评估链ScoreStringEvalChain和PairwiseStringEvalChain。
说明:经过微调的 ChatGPT 超越了 GPT-4零样本,并接近带有 CoD 的 GPT-4
说明:经过微调的 ChatGPT 比 GPT-4零样本快11倍以上,比带 CoD 的 GPT-4快33倍
经过微调的 ChatGPT 比 GPT-4零样本便宜63%,比带 CoD 的 GPT-4便宜84%
结果显示,相比GPT-4零样本,微调后的ChatGPT在新闻摘要任务上的表现优于前者,几乎达到GPT-4链式提示的水平,但其速度提高11倍,成本降低63%。与零样本GPT-4相比,微调ChatGPT在双样本评估中获胜率达96%。
分析称,合成数据微调展现了增强语言模型能力的巨大潜力。LangChain提供了创建复杂链条和迁移到小模型的完美工具。自动化评估为快速可靠地评估实际表现提供了有效手段。这为新一代AI应用大规模部署提供了路径。
AIGC之后,AI Agent又在颠覆什么?
如果AIGC是2023年AI新时代的典型应用,那么,2024年AIAgent(AI智能体)将会把AIGC的能力真正产品化。一句话让GPT安排日程、写短信、发邮件都是洒洒水,最近的GPT已经可以用文本生成长视频了。与GPT等大模型相比,AIAgent像一位更具象的全能员工,是人工智能机器人的初级形态,软硬件兼顾的智能体能够如同人类一般观察周围的世界、做出决策并自动采取相应的行动。站长网2024-02-19 18:17:070000蚂蚁发布金融大模型:两大应用产品支小宝2.0、支小助将在完成备案后上线
站长网2023-09-08 16:49:290001华为P30、Mate 20等开启HarmonyOS 4公测招募
华为近日发布了一则令人振奋的消息,宣布其P30、Mate20等12款手机即日起开始HarmonyOS4的公测招募活动。这一举措意味着,即使是五年前发布的机型,也能够享受到最新操作系统的升级体验。站长网2024-02-23 15:27:520000我给电影大导当「AI副手」
有着更熟练的技术应用能力,AIGC创作者们成为导演艺术创想和新生产工具之间的串联者和翻译器。如果我们尝试以传统影视行业的流程环节解释他们在其中的工作,那将是一系列复合职能。石硕和叶锦添的第一次会面在线上,隔着屏幕,并没有做过多的寒暄,他们很快就开始了具体的测试工作。0001称小鹏是“小鸟汽车” 多次诋毁贬低!一自媒体向小鹏道歉、赔偿
快科技1月5日消息,小鹏汽车法务部日前发文宣布。自媒体汽车曝光台”(或名:汽车通病曝光台、车曝台等)此前在抖音、微信视频号等多个网络平台矫伪事实、诋毁小鹏汽车产品与服务、贬低小鹏汽车品牌,严重误导公众。近日,该自媒体已公开澄清并向小鹏汽车赔礼道歉,作出经济赔偿。小鹏汽车法务部将持续关注、坚决打击恶意诋毁侮辱行为。请以为戒。站长网2025-01-05 10:03:030000