登陆注册
16980

折射OpenAI新一年技术路线图,透视Sam Altman的12个愿望清单

站长网2023-12-26 14:43:450

当地时间12月24日,Sam Altman 在X 平台上罕见地发起了一个「许愿池」, 「希望 OpenAI 在2024年构建/修复什么?」,这条推文迅速吸引 AI 领域众多大佬和网友的参与。

两个小时后,Sam Altman 挑选了12个期望值最高的愿望清单,并誓言「我们将尽我们所能去提供(以及许多其他我们感到兴奋但此处未提及的内容)」——从这里可以折射出 OpenAI2024年的路线图。

AGI(请保持耐心)

GPT-5

更好的语音模式

提高访问限制

更好的 GPTs

更好的推理能力

对觉醒/行为程度的控制

视频处理/生成能力

个性化定制

更强的联网搜索能力

使用 OpenAI登录

开源

对于这个许愿池,就连 GitHub 前 CEO Nat Friedman 也涌入评论区发言,「请确保 ChatGPT 中的语音模式足够出色,且可以通过图灵测试进行10分钟的对话,谢谢!」

「2024年,OpenAI 没有AGI」

过去一年,随着 ChatGPT 的爆火,GPT-4、GPT-4Turbo、DALL·E3等大模型的陆续推出,将 AI 发展推向新的高潮。很多人也期待随着底层模型的愈发成熟,能用 AI 做更多的事情。

当然,从愿望清单中也不难看出,更多的人希望 AI 能在新的一年里实现 AGI 的突破。

所谓 AGI,并没有统一的定义,但是当问询ChatGPT,其所给出的解释是指一种具有与人类相似或超越人类智能水平的 AI 系统。通过 AGI,AI 能够像人一样学习和适应各种不同的任务和领域,具有更全面的认知能力。实现 AGI 被认为是人工智能领域的一个长期目标,也是对计算机科学和人工智能研究的挑战性问题之一。

此前,英伟达 CEO 黄仁勋曾做出一次预测,即我们可能会在未来五年内看到 AGI。在黄仁勋看来,其将 AGI 定义为一种软件或计算机,可以完成反映基本智能的测试,与正常人「相当有竞争力」。

不过,对于专攻于底层大模型的 OpenAI 而言,AGI 势必会成为 AI 产品的底座,而不仅仅仅是一种软件这么简单。

当 AI 实现 AGI,也就意味着人与机器终极共生的时代将来临。在这其中,无论是法律法规,还是应用场景、道德规范都需要做好充足的准备,否则 AI 也有可能出现许多不可控的情况。

正因此,OpenAI 对待 AGI 可谓是慎之又慎。本月早些时候,Altman 在接受《时代》杂志采访时表示,「我认为 AGI 将是人类迄今发明的最强大的技术——特别是在全球实现对信息的民主化访问方面......就像以往任何其他强大的技术一样,这将带来令人难以置信的新事物,但也将伴随着一些真正的负面影响」。

在这一次网友的高度期待下,Sam Altman 也在 X 平台上也直截了当地回复道,「哇,前2分钟内对 AGI 的请求比预期多得多;很抱歉让您失望了,我认为我们无法在2024年实现这一目标……」

GPT-5会更强么?

相比 AGI 的不可能,备受期待的下一代 AI 语言模型 GPT-5的落地似乎更有希望一些。

前有今年7月 OpenAI 提交了 GPT-5的商标申请,后有Sam Altman 在一次采访中对外透露下一代人工智能模型 GPT-5正在开发中,还希望微软等投资者再给一些资金支持。

处处都暗示着 OpenAI 内部正在开发下一代新模型。至于究竟是不是 GPT-5,Sam Altman 也曾警示过:「在制作我们称之为 GPT-5的模型之前,我们需要弄清楚的事情还有很多。」

不过,通过 OpenAI 迭代的步伐,也正如 Fireflies.ai 社区所预测的,我们也可以对下一代「GPT-5」有以下一些期待:

1. 数据训练

GPT-3和GPT-4分别拥有1750亿个和超过1万亿个参数,在此基础上,GPT-5预计将利用更大的数据集,可能达到数万亿个参数。

同时,在2023年8月 OpenAI 发布了一个网络爬虫工具 GPTBot,可以在注重版权的基础上,通过从互联网收集公开信息来扩展其数据集。此举也被业界解读为 OpenAI 希望借助此款工具,帮助训练出 GPT-5相关模型。

2. 更高的准确性

虽然 GPT-4是目前行业中最先进的 AI 模型,但是它依然逃脱不了「幻觉」、「虚假」以及误导性信息的「魔爪」。

不过按照 OpenAI 过往大模型版本的迭代,「准确性」是其必升级的维度之一。根据 OpenAI 报告显示,GPT-4的幻觉现象明显少于 GPT-3和之前的版本。GPT-4在科学和历史类别中的准确性水平超过80%。对于其他类别的准确性也有显著提高。

预期 GPT-5的幻觉现象将少于10%,以便用户可以信任语言模型。

3. 全面的多模态

鉴于像微软的 Bing Chat 和 Google Bard 这样的多模态 AI 系统的兴起,不少人推测,GPT-5很可能融合全面的多模态能力进行升级,可能会具备更流畅的处理和生成文本、图像、音频、视频和3D 内容的能力。

4. 追求经济高效的扩展

不久前,被视为 OpenAI 最强竞品的 Anthropic 公司发布了 Claude Pro, 这款产品和 ChatGPT Plus 服务收费相同,但与 ChatGPT Plus 用户每三小时发送50条信息的限制相比,Claude Pro 用户每八小时可向 Claude2发送至少100条信息,树立了新的行业基准,这自然给 OpenAI 带来了一定的压力。

如果想要与 Claude Pro 实现有效竞争,OpenAI 亟须解决成本、规模、性能等关键挑战。所以,GPT-5版本是否会克服这些挑战,我们持以期待。

其他愿望清单

除此之外,网友们也希望 OpenAI 能够实现以及修复以下一些功能:

更好的语音模式

上个月,OpenAI 历经内部混乱之后的首日,悄然在X 平台上官宣ChatGPT 语音功能现在已经向所有用户免费开放,它主要由Whisper 模型提供支持。iOS 和 Android 的 ChatGPT 移动应用程序均提供该语音功能。

不过,有些限制的是,ChatGPT只提供了五种不同的声音进行选择:Breeze、Ember、Cove、Juniper 和 Sky。

在未来新的一年,不少用户希望 OpenAI 能够支持更多的声音和语言的选择,也期待可以将这一功能添加到网页版中。

提高访问限制

OpenAI 为 ChatGPT、GPT-4设置的访问限制,具体是指每个用户在特定时间段内可以发送的消息数量的限制、用户或客户端在指定时间内访问服务器的次数限制。

通过速率限制,OpenAI 可以有效防止某些用户滥用或误用 API、确保每个人都能公平地访问 API,以及帮助其自身管理基础设计上的总负载。

当然,不同账户类型和使用层级,拥有不同的速率限制。下图显示了 OpenAI API 的默认极值,其中极值根据两种方式测量:RPM(每分钟请求数)和 TPM(每分钟 tokens 数)。

当然,遇到特殊情况或者有强有力理由时,也可以单独向 OpenAI 申请速率限制增加。随着 AI 应用场景的丰富,越来越多的用户希望 OpenAI 可以直接先提升一波访问限制。

可以想象的是,速率限制的提升也需要 OpenAI 付出一定的代价,譬如更强大的计算能力和基础设施支持、增加对网络带宽的需求,或者从软件维度入手,改进算法、并行化处理、减少延迟等措施。

更好的 GPTs

今年11月,Sam Altman宣布「GPTs 现已经对所有 ChatGPT 订阅者开放」,这意味着人人可零代码制作智能体的时代已来临。同时在首届开发者日上,OpenAI 还宣布了将推出GPT 商店,以帮助经过验证的开发人员将他们的产品货币化。

有些遗憾的是,OpenAI 遭遇内乱,虽然原董事会成员将 Sam Altman 踢出局几天后,最终其成功回归,但是这一事件对于内部原定的产品发布计划带来了干扰。

因为这一突发事件,OpenAI 告知用户 GPT Store 应用将推迟至2024年上线。所以,面向未来,更加丰富的 GPTs 在新的一年里落地也并不是什么难事。

更优秀的推理能力

推理能力是指大模型在处理复杂任务、解决问题或生成有逻辑关联的连贯文本时所表现出的能力,它能够在理解和应用已有知识,进行推理、归纳和演绎,从而产生准确、合理的推断和推理结果。

要想提升推理能力,或可以通过模型架构改进、更大规模的训练数据、预训练和微调策略改进、多任务学习以及结合外部知识和语境等方法来提升推理能力。

对觉醒/行为程度的控制

这一点涉及到了 AI 系统的伦理和安全性。AI 技术的应用和发展需要在法律、伦理和社会框架下进行,以确保其对人类的利益和福祉产生积极影响。当然,这也绝非 OpenAI 一家就可以解决的事情,需要联合政府、监管机构以及开发者和研究机构共同参与,最终确保对 AI 系统的使用是可靠、透明和受控制的。

视频处理生成能力

目前相较于文本、音频、图像维度,大模型在处理视频功能方面的能力还相对有限,对于视频数据的处理需要更复杂的架构和技术。

视频数据通常具有高维度和大量的时间序列信息,处理起来更加复杂和耗时。此外,视频的处理还涉及到视觉内容的识别、跟踪、动作理解等方面,需要更深入的视觉理解能力。

这也是 OpenAI 等诸多大模型企业正在发力的下一站。

个性化定制

大模型的个性化也成为目前的一个主流趋势。个性化大模型的目标是提供更加符合用户个性化需求的输出结果,增强用户的满意度和体验。它可以通过考虑用户的个性化信息、上下文和反馈来实现,它与通用大模型的根本区别在于更加拟人化。

不过,在实施个性化时,需要 OpenAI 等开发商平衡个性化和隐私保护之间的关系。

更强的联网搜索能力

ChatGPT 的知识库更新时间已经被网友诟病很久了,GPT-3.5的知识库截止日期是2021年9月,GPT-4的知识库截止到2023年4月。在语言型的文本内容处理上,能够符合基本诉求。而涉及到新闻类、知识类的任务上,用户对于时效性的要求就更高了,提出了希望 OpenAI 增加实时联网搜索的产品能力。

OpenAI 账号支持社交登录

有网友提出希望 OpenAI 账号支持其他网站的社交登录,该功能也很合理。因为 OpenAI 目前拥有超过10亿用户,也成为了历史上用户增长速度最快的产品。根据当前的统计数据,ChatGPT 当前拥有超过1.8亿用户,每周活跃用户数达到1亿。

该需求也能看出,网友们对 OpenAI 持续增长的预期,毕竟只有国民级应用开发社交登录需求才比较合理。

开源

开源的话题,其实是在该 Twitter 评论里呼声最高的新年期待,有开发者提到希望 OpenAI 能够开源他们的权重和数据集,但是 Altman 把开源列在了最后一项。

OpenAI 一度因为开闭源问题,而被调侃为 CloseAI。宣称开源的大模型,是真开源还是假开源的话题,也一直引发行业内的讨论。

OpenAI 断层式的领先,让其他玩家不得不使用开源策略尝试弯道超车,行动最快的当属 Llama2,Llama2的开源促使全球的大模型生态,在过去几个月里得到了飞速发展。Llama2的生态蓬勃成长,也让 Meta 利用生态重振旗鼓的计划,得以看见希望。

在今年1024程序员节的岳麓对话「九问中国大模型掌门人」中,IDEA 研究院讲席科学家张家兴表示「开源代码是公海理念,大家都投入贡献,开源项目的发起方会得到很多收益。但是开源模型与开源代码不同,如果修改了某个参数,模型性能也有所不同。开源模型后,就存在继续训练的可能性,如果有人能继续训练,那么模型的谱系将变得非常大,它会形成一棵树的结构。从另一个角度来说,我们也希望大家都能真开源,比如更多的开源训练代码、训练数据,能真正帮助开发者们继续训练和微调。」

月之暗面的创始人杨植麟对大模型开源的观点是:「团队应该根据自己的发展方向,选择是否开闭源。如果计划像 OpenAI 一样的闭源,可能是通往 Super APP(超级应用)的唯一通路,而开源只是 ToB 的获客手段。」

杨植麟认为「凡要做 C 端超级 APP 的,都是闭源。」

写在最后

目前,AI 已经取得了长足的进步,但仍然存在许多挑战和限制:

从技术角度来看,AI 的发展受到算力、数据质量和算法架构等方面的限制。随着硬件的进步和算法的不断改进,可以预期 AI 的性能将继续提升。

此外,AI 的发展还受到伦理、法律和社会因素的约束。AI 技术引发了一系列关于隐私、数据安全、就业影响、责任分配等问题的讨论。这些问题需要综合考虑,并在 AI 的发展过程中制定相应的规范和政策。

作为 AI 领域的独角兽,OpenAI在2024年又会带来哪些让人惊艳的功能和产品,让我们拭目以待~

参考:

https://www.linkedin.com/pulse/what-expect-from-gpt-5-fireflies-inc-vll6f/?trk=article-ssr-frontend-pulse_more-articles_related-content-card

https://twitter.com/sama/status/1738673279085457661

0000
评论列表
共(0)条