首页站长资讯Anthropic 展示它的 AI 训练与 OpenAI 不同之处：不需要人工标注有害信息

Anthropic 展示它的 AI 训练与 OpenAI 不同之处：不需要人工标注有害信息

站长网2023-05-10 10:13:270阅

Anthropic 是一家由前 OpenAI 高管创立的初创公司，它似乎正试图在快速发展的市场中开辟自己的明确位置，为由大型语言模型（称为生成 AI）提供支持的服务提供服务。

Claude 是一个人工智能聊天机器人，类似于 OpenAI 的 ChatGPT，Anthropic 在三月份发布。

在一篇博客文章中，这家初创公司解释了它用来训练其类似 ChatGPT 的聊天机器人 Claude 的方法，以产生比其他聊天机器人危害更小、更准确的结果。

Anthropic 详细介绍了其「Constitutional AI」训练方法，旨在为其 Claude 聊天机器人注入明确的「价值观」，以解决人工智能系统透明度、安全性和决策制定等方面的担忧，而无需依赖于人类反馈来评估响应。

Anthropic 表示，随着 AI 系统的不断发展，我们希望能够借助它们来监督其他的 AI。我们正在尝试一种方法，通过自我提升训练一个无害的 AI 助手，而不需要任何人工标注有害输出内容。

唯一的人工监督是通过一系列规则或原则来实现的，因此我们称之为「Constitutional AI」。这个过程涉及到有监督的学习和强化学习两个阶段。

在有监督的阶段，我们从一个初始模型中进行采样，然后生成自我批评和修订的结果，再将修订后的结果微调到原始模型中。

在强化学习阶段，我们从微调后的模型中进行采样，使用一个模型来评估哪个采样结果更优秀，然后从这个 AI 喜好数据集中进行偏好模型的训练。

之后，我们使用偏好模型作为奖励信号，即「AI 反馈的强化学习」（RLAIF）进行训练。因此，我们能够训练出一个无害但非侵入式的 AI 助手，通过解释其反对有害查询的理由来进行交互。无论是有监督学习还是强化学习，这些方法都能利用链式思维推理来改善 AI 决策性能和透明度，使得控制 AI 行为变得更加精确，并且需要的人工标注更少。

Anthropic展示它的AI 训练与OpenAI不同之处不需要人工标注有害信息

0000

评论列表

共(0)条

相关推荐

站长资讯
2023年，互联网没有顶流
2023年过去了，你还记得哪些火遍互联网的新晋网红?是素人网红代表:靠一首“挖呀挖呀挖”吸粉百万的美女幼师黄老师;今年夏天再次翻红的“中老年顶流”秀才、一笑倾城;10月份爆火不到一个月即“塌房”的于文亮;这两天刚刚走红的70后中年男人“闻神”?还是平台力捧的明星代表:小红书年初的现象级带货人董洁、双11“新宠”主播章小蕙、最近火起来的明星达人吴昕?
站长网2023-12-25 17:42:32
0000
站长资讯
百度百家号上线「百家号 AI 助手」功能可一键生成热点文章
今日，百度百家号宣布基于百度AI大模型上线「百家号AI助手」功能，创作者可体验基于热点内容一键生成优质文章的玩法，可登录百家号PC后台首页进行体验。以下为具体功能介绍:
站长网2023-09-20 15:33:07
0004
站长资讯
知网状告AI搜索：搜到我家论文题目和摘要，你侵权了！
创业团队秘塔AI搜索，被知网给告了!足足28页的侵权告知函，总结一句话就是:贵司的AI搜索，能搜到我家的学术文献题录及摘要数据，且没经我司许可，严重侵权。这一消息，正是由秘塔刚刚发布于自家的公众号:在秘塔收到的告知函中，还有一句非常醒目的话:不希望中国知网被秘塔搜索到，请立即断开搜索结果到我司网站的链接。然后最后一句:“如需商务合作，请与我司联系”……
站长网2024-08-16 13:59:14
0000
站长资讯
Dingo:一个可简单集成函数的ChatGPT微框架
要点:Dingo是一个可以简单集成Python函数到ChatGPT的微框架，只需要一行代码。Dingo可以自动生成函数的文档注释，简化集成过程。Dingo可以打包部署成兼容OpenAIAPI的Web服务器。最近的大语言模型进步推动了AI助手的出现。简单来说，AI助手是一种机制，它为大语言模型提供一组外部工具（函数）。这些工具可以在用户输入的基础上被模型调用(单次或多次)。
站长网2023-08-28 09:59:18
0000
站长资讯
夏天“成年人的较量”，从2000元一把水枪开始
一生要强的年轻人，打水仗也不能服输。大到水柱发射的距离、角度，小到水枪补水的速度、容量，在一场“成年人的较量”里，细节决定着成败，也决定了你能不能成为整个场子里“最靓的那个崽”。在水枪界，德国品牌spyra是玩家们心目中的“战斗机”，一把spyra最新款的电动水枪，售价超过2000元。
站长网2023-08-04 09:19:23
0000