研究人员发布Starling-7B:基于AI反馈的大语言模型 媲美GPT-3.5
**划重点:**
1. 🚀 **RLAIF技术介绍:** Starling-7B采用了基于AI反馈的强化学习(RLAIF),通过优化Openchat3.5和Mistral-7B而成。
2. 📊 **性能卓越:** 在MT-Bench和AlpacaEval两项基准测试中,Starling-7B表现出色,对比其他模型的性能提升引人瞩目。
3. 🔄 **迈向人性化:** RLAIF主要改善了模型的实用性和安全性,未来计划通过引入高质量的人工反馈数据,更好地满足人类需求。
UC伯克利的研究人员最近发布了Starling-7B,这是一款基于AI反馈强化学习(RLAIF)的开放式大语言模型(LLM)。该模型基于精调的Openchat3.5,并继承了Mistral-7B的特性。
在RLAIF中,研究人员借助其他AI模型的反馈来训练Starling-7B,以提升其聊天机器人响应的实用性和安全性。与以往ChatGPT中通过人类反馈进行的强化学习(RLHF)相比,RLAIF更具成本效益,速度更快,透明度更高,且可扩展性更强。
为了使用RLAIF训练模型,研究人员创建了Nectar数据集,其中包含183,000个聊天提示,每个提示有七个响应,总计3.8百万个成对比较。响应来自不同的模型,包括GPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-instruct和Llama2-7B。研究人员通过GPT-4对合成响应进行评分,并采用独特方法规避了GPT-4的偏见,将第一和第二响应评分最高。
Starling-7B在两个基准测试,MT-Bench和AlpacaEval中表现卓越。Starling-7B 在 MT-Bench 中的表现优于除 OpenAI 的 GPT-4和GPT-4Turbo之外的大多数模型,并且在 AlpacaEval 中取得了与 Claude2或 GPT-3.5等商业聊天机器人相当的结果。与普通 Openchat3.5相比,在 MT-Bench 中,分数从7.81增加到8.09,在 AlpacaEval 中,分数从88.51% 增加到91.99%。研究人员指出,RLAIF主要改善了模型的实用性和安全性,但并未影响其回答基于知识、数学或编码的问题的基本能力。
虽然基准测试结果在实际应用中有一定限制,但对于RLAIF的应用来说,结果仍然令人鼓舞。研究人员指出,下一步可能是通过引入高质量的人工反馈数据扩充Nectar数据集,以更好地调整模型以满足人类需求。
Starling-7B展示了AI反馈在强化学习中的潜力,为构建更符合人类喜好的模型打开了新的可能性。研究人员强调,尽管Starling-7B在一些需要推理或数学任务上仍存在困难,并有幻觉倾向,但其性能仍然可圈可点。
研究人员已经发布了Nectar数据集、与之相关的Starling-RM-7B-alpha奖励模型以及基于该数据集训练的Starling-LM-7B-alpha语言模型,这些可以在Hugging Face上获得。他们计划在不久的将来发布代码和论文,供研究使用。对于对模型进行测试,读者可以参与聊天机器人竞技场。
项目网址:https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha
AI视野:Azure AI新增40种大模型;Yi-34B-Chat微调模型开源;GPT-4在图灵测试中成功率超过41%;微软谷歌推出AI入门课程
📰🤖📢AI新鲜事微软AzureAI新增40种大模型微软宣布在AzureAI云开发平台中新增40个大模型,包括WhisperV3、StableDiffusion、Phi、Falcon、SAM、CLIP、CodeLlama等,支持文本生成、图像处理、代码编写、语音识别等多种功能。【AiBase提要:】站长网2023-11-27 15:35:110000卢伟冰宣布小米全球首发!高通第三代骁龙8s移动平台发布
快科技3月18日消息,高通宣布推出第三代骁龙8s移动平台,为更多Android旗舰智能手机带来骁龙8系平台上最广受欢迎的特性,实现非凡的顶级移动体验。在发布会上,小米集团卢伟冰宣布,我们很高兴能与高通技术公司合作,推出首款搭载第三代骁龙8s的终端,这款全新移动平台让我们能够利用生成式AI为用户提供顶级的个性化体验。站长网2024-03-18 22:58:260000华纳音乐集团再投2亿 裁员10%削减成本
据国外媒体报道,华纳音乐集团上周三公布2022年第四季度财报,收入和利润均创新高,却也宣布将裁员约600人,相当于总员工的10%。这是该公司全新十年战略规划的一部分。季度收入同比增长17%至17.5亿美元,正常化后业绩同比增11%。财报会议上,首席执行官罗伯特·金克尔透露,裁员措施旨在节省约2亿美元的成本开支,这笔资金将用于再投资进入音乐行业的创新发展。0000虚幻引擎 5.2 发布,原生支持 Apple Silicon
EpicGames宣布推出虚幻引擎5.2(UnrealEngine5.2/UE5.2)。EpicGames表示,虚幻引擎5.2进一步扩展了UE5开创性的工具集,继续实现最先进的实时3D创作工具的承诺。此外,虚幻引擎5.2还推动了开发者期望的开箱即用的界限,提供了更多的新功能。站长网2023-05-16 11:35:170000让ChatGPT等模型学会自主思考!开创性技术“自主认知”框架
ChatGPT、百度文心一言、Bard等大语言模型展现出了超强的创造能力,加速了生成式AI的应用进程。但AI模型只能基于训练数据执行各种任务,无法像人类一样利用生活知识、过往经验用于复杂的推理和决策。例如,在玩游戏时,人类可以利用各种线索、常识、经验以及对游戏规则的理解做出最佳决策。而AI只能通过大量训练学习游戏的模式,不具备人性化理解功能。一旦游戏规则或环境发生变化,AI就很难做出正确的选择。站长网2023-10-13 09:02:340000