这款“克隆版”ChatGPT开发成本仅需30美元,还开源了!
站长之家(ChinaZ.com)3月29日 消息:前不久,斯坦福科学家仅用600美元就克隆了OpenAI的ChatGPT的报道引发了不少关注,现在有开发团队仅用30美元成本就开发出了似于 ChatGPT 的聊天机器人。这是怎么做到的呢?(相关文章阅读《意不意外!斯坦福科学家仅用600美元就克隆了OpenAI的ChatGPT》)
开发成本仅为30美元
全球领先的Data AI企业Databricks推出了一款类似于 ChatGPT 的聊天机器人 Dolly(多利),其使用更旧、更小的语言模型创建,开发成本仅为30美元。
Dolly 以世界上第一只克隆哺乳动物绵羊命名,与 ChatGPT 有关键区别。它的代码不仅可以免费公开获取,而且 Dolly 是在一个只有60亿个参数的小得多的语言模型上接受训练的。对比下GPT-3有1750亿个参数(ChatGPT 在 GPT-3.5上进行了微调)。Dolly 还仅使用八个 Nvidia A10040GB GPU 进行了训练,而 ChatGPT 则使用了10,000个。
该团队表示,“我们认为这一发现很重要,因为它表明创造强大的人工智能技术的能力比以前意识到的要容易得多。”
Dolly 基于由 Databricks 开发的因果语言模型,该模型源自 EleutherAI 已有两年历史的 GPT-J 语言模型。根据这家数据软件公司的博客,它对大约52,000条由问答对组成的记录进行了微调,以生成头脑风暴、文本生成和“原始模型中不存在”的开放式问答等指令遵循功能。
“令人惊讶的是,指令跟踪似乎并不需要最新或最大的模型,”其研究人员说。
这52,000条记录来自斯坦福大学的聊天机器人 Alpaca(羊驼),它在 Meta 的 LLaMA 大型语言模型 (LLM) 上进行了训练,开发成本不到600美元。Alpaca 也展示了类似 ChatGPT 的输出能力,但演示在发布后不久就因产生“幻觉”而关闭。
输出质量与ChatGPT相似
Databricks 的团队表示,根据 ChatGPT 所基于的 InstructGPT 论文中的指令跟踪能力评估,Dolly 的输出质量与 ChatGPT 的输出质量相似。
该团队写道:“这表明,ChatGPT等最先进模型中的大部分定性收益可能是由于集中的指令跟踪训练数据,而不是更大或更好调整的基础模型。”
Databricks 表示,由于斯坦福大学的 Alpaca 基于 Meta 最先进的 LLaMA,它预计在质量输出方面“更胜一筹”,而 Dolly 是基于免费的、较旧的开源模型。
至于Dolly的缺陷方面,该团队表示,聊天机器人“在句法复杂的提示、数学运算、事实错误、日期和时间、开放式问题回答、幻觉、列举特定长度的列表和文体模仿方面很不理想。”
这些注意事项在 Dolly 的 GitHub 页面上公开,如果其他人想开发自己的聊天机器人,可以使用该页面的代码。
(项目网址:https://github.com/databrickslabs/dolly)
“我们相信 Dolly 的底层技术为那些希望以低廉的成本构建自己的指令遵循模型的公司提供了一个令人兴奋的新机会,”该团队表示。此外,公司可能会更愿意将专有数据输入他们自己的聊天机器人,而不是将其提供给像 ChatGPT 这样的公共聊天机器人。
北大硕博生开发ChatExcel,一键处理表格,告别繁琐的Excel函数大全
众所周知,Excel是一款应用广泛的办公软件,也是世界上使用最广泛语言的编程语言,还是一款优秀的低代码工具。然而,想要真正玩转它,不仅需要学会各种各样的「Excel函数公式」,也需要熟练应用宏和VBA等语言。这也导致不少人叫苦连天,称没有一点IT背景很难用好Excel。当前在AIGC主流趋势下,这一情况有所好转。站长网2023-03-08 08:57:3700017《互联网广告管理办法》公布:弹出广告不能“一键关闭”最高可罚3万
各种App上烦人的广告越来越多,尤其是很多广告将关闭按钮隐藏的很小,给用户带来了很多困扰。对此,官方要出手整治了。据市场监管总局官方公众号市说新语”消息,为切实维护广告市场秩序,保护消费者合法权益,推动互联网广告业持续健康发展,近日,市场监管总局修订发布了《互联网广告管理办法》(以下简称《办法》),《办法》将于2023年5月1日起施行。0000中国支付清算协会倡议:支付行业从业人员谨慎使用ChatGPT
中国支付清算协会今日发文称,ChatGPT等智能化工具已暴露出跨境数据泄露等风险。为有效应对风险、保护客户隐私、维护数据安全,提升支付清算行业的数据安全管理水平,中国支付清算协会向行业发出倡议。站长网2023-04-10 18:10:380000徐志斌:为什么做私域的人开始讲全域了?
谢谢大家来到见实“全域跃升”大会。这次我们将大会主题定在了“全域”上。为什么要讨论这个话题?这是一个被造出来的新词吗?如果我们稍微留意一下行业的词汇变化,会发现去年下半年开始到现在,“全域”这个词,提及量和讨论的深度,都要和“私域”差不多了。尤其是平台、一些大型公司的财报中,都在不断提到这个词。那,全域到底是什么?全域会带来什么?这是我今天要和大家的聊的话题。站长网2023-04-02 15:35:220001露营飞盘“熄火”,“旅游平替”还能躺赚吗?
作为旅游平替,露营在去年无疑成为C位。作为难得的火热赛道,露营也吸引无数人涌入淘金。每个赛道在刚兴起的时候,几乎都能轻松捞金。去年的露营就是这样为数不多的赛道。有数据统计,过年六年时间,露营地市场维持着平稳的增长,从数亿到数十亿元。在2021年一整年,露营地市场就增长超百亿元。露营地看起来只需要单次投入,租片地,买露营装备,提供烧烤食材,就可以收上千一晚。成本远低于经营一家星级酒店。站长网2023-04-09 15:27:170001