利用合成数据微调ChatGPT超越GPT-4摘要性能 降低63%成本和提升11倍速度
文章概要:
- 利用链式密度提示微调ChatGPT在新闻摘要任务上超过GPT-4零样本表现,接近GPT-4链式提示。
- 通过ScoreStringEvalChain和改进的PairwiseStringEvalChain等自动评估链实现人类水平的量化评估。
- 微调ChatGPT比GPT-4零样本快11倍且便宜63%,比GPT-4链式提示快33倍且便宜84%。
近日,Elicit公司机器学习工程师Charlie George在LangChain博客上发表文章介绍了他们使用合成数据微调ChatGPT在新闻摘要任务上超越GPT-4的研究成果。
文章提到,尽管GPT-4被公认为世界上最强大的语言模型,但其调用限制、高成本和高延迟也限制了其实际应用。为解决这一问题,一些开发者转而使用ChatGPT等小模型,但小模型的表现通常不如GPT-4。文章介绍了微调的思路,即调整模型参数以更好地适应具体任务,但收集人类标注数据昂贵且耗时,而传统评估指标如困惑度也无法准确反映用户体验。
为解决数据问题,采用了一种合成数据生成方法,即使用GPT-4通过链式密度(CoD)提示逐步改进其生成的摘要。然后,使用LangSmith平台收集这些改进后的摘要作为训练数据,微调ChatGPT。
在评估方面,文章认为传统的BLEU和ROUGE指标往往不能准确捕捉现代语言模型的细微差异。相比之下,人工评估虽可靠但耗时耗力。最佳方案是开发自动化评估系统,但也需要人工验证其有效性。研究者已经开发了与真人高度一致的自动化评估链ScoreStringEvalChain和PairwiseStringEvalChain。

说明:经过微调的 ChatGPT 超越了 GPT-4零样本,并接近带有 CoD 的 GPT-4

说明:经过微调的 ChatGPT 比 GPT-4零样本快11倍以上,比带 CoD 的 GPT-4快33倍

经过微调的 ChatGPT 比 GPT-4零样本便宜63%,比带 CoD 的 GPT-4便宜84%
结果显示,相比GPT-4零样本,微调后的ChatGPT在新闻摘要任务上的表现优于前者,几乎达到GPT-4链式提示的水平,但其速度提高11倍,成本降低63%。与零样本GPT-4相比,微调ChatGPT在双样本评估中获胜率达96%。
分析称,合成数据微调展现了增强语言模型能力的巨大潜力。LangChain提供了创建复杂链条和迁移到小模型的完美工具。自动化评估为快速可靠地评估实际表现提供了有效手段。这为新一代AI应用大规模部署提供了路径。
普华永道爱尔兰与微软合作开设新的生成式AI中心,促进技术的采用
划重点:-PwCIreland(普华永道爱尔)与微软合作,在都柏林开设新的生成型人工智能(GenAI)中心,旨在推动该项新技术的应用。-调查显示,爱尔兰企业在采用人工智能和生成型人工智能方面相对较慢。-PwC投资了超过10亿欧元来扩大和推动人工智能技术,以实现以人为主导、技术驱动的转型。站长网2023-11-20 14:47:480000我在抖音卖牛粪,年入百万
各位村民好,我是村长。这个标题没有任何夸张的成分,就是在农村卖牛粪,一年也有机会赚百万。今天我要和大家分享的这个生意,是靠卖土挣钱。而牛粪土只是卖土里面的一种产品,还有其他的腐殖土、草炭土等等。当然,这并不是之前网上所谓的倒卖东北黑土,干违法的生意,而是正儿八经的交易。01为什么有人买土一部分人会很好奇,为什么有人会买牛粪、羊粪、猪粪、蚯蚓粪,为什么有人要买各种土。站长网2023-05-12 08:59:380000金价暴涨,金饰品牌却要另寻出路?
春节后,黄金的热度仍然不减。此前金价一路高歌猛进,连涨七周创下历史高位;国内各大品牌的足金饰品价格都在刷新历史同期纪录,一度逼近900元/克。近日金价又出现高位震荡,但消费者的购金热情却越发高涨。0000特斯拉召回1104622辆汽车 将提供能量回收制动强度选项
国家市场监督管理总局发文称,日前,特斯拉汽车(北京)有限公司、特斯拉(上海)有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向国家市场监督管理总局备案了召回计划。站长网2023-05-12 15:08:140000雷军吸粉近700万,车企营销除了霸总网红,还能怎么“整活”?
车企营销,搭上了直播短视频的快车。最近一段时间,从雷军兢兢业业互动为小米SU7预热,再到周鸿祎参加北京车展成为唯一“车模”,车企CEO争当网红,卷得整个汽车行业“苦不堪言”,车企营销也进入了新阶段。车企“霸总”想以个人出圈的流量带动品牌“出圈”,也有一众汽车品牌发力短视频直播、拿到品牌曝光超5亿的亮眼成绩。站长网2024-05-15 11:24:040000