NVIDIA发布SteerLM:个性化定制大型语言模型响应的新AI方法
划重点:
NVIDIA发布了一项名为SteerLM的新技术,旨在解决大型语言模型的问题,使用户能够自定义模型的响应。
SteerLM通过四个步骤的监督微调过程,允许用户定义关键属性,如帮助性、幽默和创造力,来引导模型的行为。
这项技术的一个亮点是其实时可调性,用户可以在推断过程中微调属性,从而为各种应用提供个性化的能力。 NVIDIA将SteerLM作为开源软件发布,为开发者提供了机会。性能上表现出色,还具有实时可调整性,可应用于多个领域,从游戏到教育再到无障碍领域。
在人工智能领域,开发人员和用户一直面临一个挑战,那就是需要更加定制和细致的大型语言模型响应。虽然这些模型,比如Llama2,可以生成类似人类的文本,但它们通常需要提供真正针对个体用户独特需求的答案。然而,现有的方法,如监督微调(SFT)和从人类反馈中强化学习(RLHF),存在一些局限,导致生成的响应可能显得机械和复杂。
图源备注:图片由AI生成,图片授权服务商Midjourney
NVIDIA研究部门推出了SteerLM,这是一项突破性技术,旨在解决这些挑战。SteerLM提供了一种新颖的以用户为中心的方法,用于定制大型语言模型的响应,允许用户定义引导模型行为的关键属性。SteerLM通过一个四步骤的监督微调过程来运作,简化了大型语言模型的定制过程。
首先,它使用人工标注的数据集训练属性预测模型,以评估诸如帮助性、幽默和创造性等特性。接下来,它利用这个模型来标注各种不同的数据集,丰富了语言模型可访问的数据的多样性。然后,SteerLM采用属性条件的监督微调,训练模型生成基于指定属性的响应,如感知质量。最后,它通过引导训练来精炼模型,生成各种不同的响应,以实现最佳的微调。
SteerLM的一个显著特点是其实时可调整性,允许用户在推断过程中微调属性,以满足他们的具体需求。这种灵活性为各种潜在应用敞开了大门,从游戏和教育到无障碍领域。有了SteerLM,公司可以为多个团队提供个性化能力,而无需为每个不同的应用重新构建模型。
SteerLM的简单和用户友好性在其指标和性能中表现出色。在实验中,SteerLM43B在Vicuna基准上表现优于现有的RLHF模型,如ChatGPT-3.5和Llama30B RLHF。通过提供一个简单的微调过程,几乎不需要对基础架构和代码进行大幅度更改,SteerLM可以以更少的麻烦交付出色的结果,使其成为AI定制领域的一项重大进展。
NVIDIA正在通过在其NVIDIA NeMo框架中发布SteerLM的开源软件来推动先进的定制。开发人员现在有机会访问代码,并使用Hugging Face等平台上提供的自定义的13B Llama2模型来尝试这一技术。
官方博客说明:https://blogs.nvidia.com/blog/2023/10/11/customize-ai-models-steerlm/?ref=maginative.com
谷歌称Gemini Nano AI大模型暂不支持Pixel8手机
谷歌公司近日透露,由于硬件限制,其为移动设备开发的AI语言大模型GeminiNano暂时无法运行在新款Pixel8手机上,但未来有望在其他高端设备上推出。GeminiNano是谷歌旗下大模型Gemini的移动版本,能够在手机上本地运行,无需连接外部服务器。最初该模型仅计划支持Pixel8Pro手机。站长网2024-03-11 11:27:490001马斯克称xAI将于本周开源AI聊天机器人Grok
今日,马斯克表示,xAI将于本周开源AI聊天机器人Grok。xAI是埃隆・马斯克成立的人工智能公司,于2023年7月12日宣布成立。该公司的目标是专注于回答更深层次的科学问题,希望未来可以利用人工智能帮助人们解决复杂的科学和数学问题,并且“理解”宇宙。2024年1月24日,马斯克xAI团队即将发布首个AI大模型Grok1.5。站长网2024-03-11 17:10:150001卢伟冰:小米不会像Open AI一样做通用大模型
在昨日的财报电话会议上,针对组建AI实验室大模型团队一事,小米总裁卢伟冰表示,会积极拥抱大模型,但不会像OpenAI一样做通用大模型,而是会深度和业务结合协同,利用AI技术提升内部效率。同时,针对造车相关问题,卢伟冰称,小米造车业务会按照原计划进行,在时间进度上将符合或略超预期。站长网2023-05-25 08:39:370000丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
替代注意力机制,SSM真的大有可为?为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以不要,这是康奈尔大学和苹果的一项最新研究所给出的结论。众所周知,注意力机制是Transformer架构的核心组件,对于高质量的文本、图像生成都至关重要。但它的缺陷也很明显,即计算复杂度会随着序列长度的增加呈现二次方增长。这在长文本、高分辨率的图像处理中都是一个令人头疼的问题。0000日本AI草案提出采取措施 减少对AI技术的过度依赖
划重点:-日本政府的一项AI草案提出,要求利用人工智能的公司和组织采取措施,减少对该技术的过度依赖。-草案还呼吁AI开发者在机器学习中不使用偏见数据,并要求他们记录与技术的互动,以备在出现问题时提供。-该草案明确了10项AI相关企业的基本规则,包括确保在保护人权和防止个人信息被未经允许提供给第三方的情况下,公平和透明度。站长网2023-10-16 23:51:110000