研究人员发布Starling-7B:基于AI反馈的大语言模型 媲美GPT-3.5
**划重点:**
1. 🚀 **RLAIF技术介绍:** Starling-7B采用了基于AI反馈的强化学习(RLAIF),通过优化Openchat3.5和Mistral-7B而成。
2. 📊 **性能卓越:** 在MT-Bench和AlpacaEval两项基准测试中,Starling-7B表现出色,对比其他模型的性能提升引人瞩目。
3. 🔄 **迈向人性化:** RLAIF主要改善了模型的实用性和安全性,未来计划通过引入高质量的人工反馈数据,更好地满足人类需求。
UC伯克利的研究人员最近发布了Starling-7B,这是一款基于AI反馈强化学习(RLAIF)的开放式大语言模型(LLM)。该模型基于精调的Openchat3.5,并继承了Mistral-7B的特性。
在RLAIF中,研究人员借助其他AI模型的反馈来训练Starling-7B,以提升其聊天机器人响应的实用性和安全性。与以往ChatGPT中通过人类反馈进行的强化学习(RLHF)相比,RLAIF更具成本效益,速度更快,透明度更高,且可扩展性更强。
为了使用RLAIF训练模型,研究人员创建了Nectar数据集,其中包含183,000个聊天提示,每个提示有七个响应,总计3.8百万个成对比较。响应来自不同的模型,包括GPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-instruct和Llama2-7B。研究人员通过GPT-4对合成响应进行评分,并采用独特方法规避了GPT-4的偏见,将第一和第二响应评分最高。
Starling-7B在两个基准测试,MT-Bench和AlpacaEval中表现卓越。Starling-7B 在 MT-Bench 中的表现优于除 OpenAI 的 GPT-4和GPT-4Turbo之外的大多数模型,并且在 AlpacaEval 中取得了与 Claude2或 GPT-3.5等商业聊天机器人相当的结果。与普通 Openchat3.5相比,在 MT-Bench 中,分数从7.81增加到8.09,在 AlpacaEval 中,分数从88.51% 增加到91.99%。研究人员指出,RLAIF主要改善了模型的实用性和安全性,但并未影响其回答基于知识、数学或编码的问题的基本能力。
虽然基准测试结果在实际应用中有一定限制,但对于RLAIF的应用来说,结果仍然令人鼓舞。研究人员指出,下一步可能是通过引入高质量的人工反馈数据扩充Nectar数据集,以更好地调整模型以满足人类需求。
Starling-7B展示了AI反馈在强化学习中的潜力,为构建更符合人类喜好的模型打开了新的可能性。研究人员强调,尽管Starling-7B在一些需要推理或数学任务上仍存在困难,并有幻觉倾向,但其性能仍然可圈可点。
研究人员已经发布了Nectar数据集、与之相关的Starling-RM-7B-alpha奖励模型以及基于该数据集训练的Starling-LM-7B-alpha语言模型,这些可以在Hugging Face上获得。他们计划在不久的将来发布代码和论文,供研究使用。对于对模型进行测试,读者可以参与聊天机器人竞技场。
项目网址:https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha
亚马逊上线生成式 AI 工具来总结客户真实的产品评价
亚马逊于周一宣布推出一种新的生成式AI工具,它将为每个产品总结客户的评论。AI工具将总结最经常提到的产品特点和常见的客户意见,以一段文字的形式显示在产品详细页面旁边,而不是让用户费力地筛选数百甚至数千个客户的个性化评论。站长网2023-08-15 08:57:490000努比亚 Z60 Ultra发布:首发3999元起 搭载影像 AI 大模型
努比亚Z60Ultra旗舰手机今日正式发布,售价4299元起,京东首发3999元起。拥有星空典藏版、银河、星耀三种配色,首发预装MyOS14系统,搭载灵犀端云融合大模型。站长网2023-12-19 15:39:400000姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0
IDEA研究院封神榜团队最近开源了最新的代码大模型Ziya-Coding-34B-v1.0,该模型在HumanEvalPass@1的评测上取得了75.5的好成绩,超过了GPT-4的得分。站长网2023-09-28 16:32:330000海外游方便了!百度地图国际地图重大更新:热门国家出游笔记全覆盖
快科技8月30日消息,马上就要迎来国庆小长假了,加上国际航班复航率逐步提升、出境跟团游目的地国家扩容,很多人都计划假期海外旅游。今日,百度地图宣布重磅升级国际地图服务,实现热门国家和地区的出游笔记全覆盖,帮助境外游用户提升行前决策效率。据悉,全球国家/城市检索服务全面升级,满足用户浏览心仪目的地的地区概况、风土人情、吃喝玩乐等多类型内容需求,免去在社交软件和地图App中来回比较的麻烦。站长网2023-08-30 18:06:550000特斯拉市值暴增8500亿 马斯克身家单日猛增209亿美元
在今日的凌晨交易时段,美国股市表现强劲,三大股指均以创纪录的新高收盘。其中,特斯拉股票的表现尤为引人注目,其股价大幅上涨超过14%,市值一夜增8500亿元,达到了自2023年7月以来的最高点。站长网2024-11-14 16:33:570000