首页站长资讯折射OpenAI新一年技术路线图，透视Sam Altman的12个愿望清单

折射OpenAI新一年技术路线图，透视Sam Altman的12个愿望清单

站长网2023-12-26 14:43:450阅

当地时间12月24日，Sam Altman 在X 平台上罕见地发起了一个「许愿池」，「希望 OpenAI 在2024年构建/修复什么?」，这条推文迅速吸引 AI 领域众多大佬和网友的参与。

两个小时后，Sam Altman 挑选了12个期望值最高的愿望清单，并誓言「我们将尽我们所能去提供（以及许多其他我们感到兴奋但此处未提及的内容）」——从这里可以折射出 OpenAI2024年的路线图。

AGI（请保持耐心）

GPT-5

更好的语音模式

提高访问限制

更好的 GPTs

更好的推理能力

对觉醒/行为程度的控制

视频处理/生成能力

个性化定制

更强的联网搜索能力

使用 OpenAI登录

开源

对于这个许愿池，就连 GitHub 前 CEO Nat Friedman 也涌入评论区发言，「请确保 ChatGPT 中的语音模式足够出色，且可以通过图灵测试进行10分钟的对话，谢谢!」

「2024年，OpenAI 没有AGI」

过去一年，随着 ChatGPT 的爆火，GPT-4、GPT-4Turbo、DALL·E3等大模型的陆续推出，将 AI 发展推向新的高潮。很多人也期待随着底层模型的愈发成熟，能用 AI 做更多的事情。

当然，从愿望清单中也不难看出，更多的人希望 AI 能在新的一年里实现 AGI 的突破。

所谓 AGI，并没有统一的定义，但是当问询ChatGPT，其所给出的解释是指一种具有与人类相似或超越人类智能水平的 AI 系统。通过 AGI，AI 能够像人一样学习和适应各种不同的任务和领域，具有更全面的认知能力。实现 AGI 被认为是人工智能领域的一个长期目标，也是对计算机科学和人工智能研究的挑战性问题之一。

此前，英伟达 CEO 黄仁勋曾做出一次预测，即我们可能会在未来五年内看到 AGI。在黄仁勋看来，其将 AGI 定义为一种软件或计算机，可以完成反映基本智能的测试，与正常人「相当有竞争力」。

不过，对于专攻于底层大模型的 OpenAI 而言，AGI 势必会成为 AI 产品的底座，而不仅仅仅是一种软件这么简单。

当 AI 实现 AGI，也就意味着人与机器终极共生的时代将来临。在这其中，无论是法律法规，还是应用场景、道德规范都需要做好充足的准备，否则 AI 也有可能出现许多不可控的情况。

正因此，OpenAI 对待 AGI 可谓是慎之又慎。本月早些时候，Altman 在接受《时代》杂志采访时表示，「我认为 AGI 将是人类迄今发明的最强大的技术——特别是在全球实现对信息的民主化访问方面......就像以往任何其他强大的技术一样，这将带来令人难以置信的新事物，但也将伴随着一些真正的负面影响」。

在这一次网友的高度期待下，Sam Altman 也在 X 平台上也直截了当地回复道，「哇，前2分钟内对 AGI 的请求比预期多得多;很抱歉让您失望了，我认为我们无法在2024年实现这一目标……」

GPT-5会更强么?

相比 AGI 的不可能，备受期待的下一代 AI 语言模型 GPT-5的落地似乎更有希望一些。

前有今年7月 OpenAI 提交了 GPT-5的商标申请，后有Sam Altman 在一次采访中对外透露下一代人工智能模型 GPT-5正在开发中，还希望微软等投资者再给一些资金支持。

处处都暗示着 OpenAI 内部正在开发下一代新模型。至于究竟是不是 GPT-5，Sam Altman 也曾警示过:「在制作我们称之为 GPT-5的模型之前，我们需要弄清楚的事情还有很多。」

不过，通过 OpenAI 迭代的步伐，也正如 Fireflies.ai 社区所预测的，我们也可以对下一代「GPT-5」有以下一些期待:

1. 数据训练

GPT-3和GPT-4分别拥有1750亿个和超过1万亿个参数，在此基础上，GPT-5预计将利用更大的数据集，可能达到数万亿个参数。

同时，在2023年8月 OpenAI 发布了一个网络爬虫工具 GPTBot，可以在注重版权的基础上，通过从互联网收集公开信息来扩展其数据集。此举也被业界解读为 OpenAI 希望借助此款工具，帮助训练出 GPT-5相关模型。

2. 更高的准确性

虽然 GPT-4是目前行业中最先进的 AI 模型，但是它依然逃脱不了「幻觉」、「虚假」以及误导性信息的「魔爪」。

不过按照 OpenAI 过往大模型版本的迭代，「准确性」是其必升级的维度之一。根据 OpenAI 报告显示，GPT-4的幻觉现象明显少于 GPT-3和之前的版本。GPT-4在科学和历史类别中的准确性水平超过80%。对于其他类别的准确性也有显著提高。

预期 GPT-5的幻觉现象将少于10%，以便用户可以信任语言模型。

3. 全面的多模态

鉴于像微软的 Bing Chat 和 Google Bard 这样的多模态 AI 系统的兴起，不少人推测，GPT-5很可能融合全面的多模态能力进行升级，可能会具备更流畅的处理和生成文本、图像、音频、视频和3D 内容的能力。

4. 追求经济高效的扩展

不久前，被视为 OpenAI 最强竞品的 Anthropic 公司发布了 Claude Pro，这款产品和 ChatGPT Plus 服务收费相同，但与 ChatGPT Plus 用户每三小时发送50条信息的限制相比，Claude Pro 用户每八小时可向 Claude2发送至少100条信息，树立了新的行业基准，这自然给 OpenAI 带来了一定的压力。

如果想要与 Claude Pro 实现有效竞争，OpenAI 亟须解决成本、规模、性能等关键挑战。所以，GPT-5版本是否会克服这些挑战，我们持以期待。

其他愿望清单

除此之外，网友们也希望 OpenAI 能够实现以及修复以下一些功能:

更好的语音模式

上个月，OpenAI 历经内部混乱之后的首日，悄然在X 平台上官宣ChatGPT 语音功能现在已经向所有用户免费开放，它主要由Whisper 模型提供支持。iOS 和 Android 的 ChatGPT 移动应用程序均提供该语音功能。

不过，有些限制的是，ChatGPT只提供了五种不同的声音进行选择:Breeze、Ember、Cove、Juniper 和 Sky。

在未来新的一年，不少用户希望 OpenAI 能够支持更多的声音和语言的选择，也期待可以将这一功能添加到网页版中。

提高访问限制

OpenAI 为 ChatGPT、GPT-4设置的访问限制，具体是指每个用户在特定时间段内可以发送的消息数量的限制、用户或客户端在指定时间内访问服务器的次数限制。

通过速率限制，OpenAI 可以有效防止某些用户滥用或误用 API、确保每个人都能公平地访问 API，以及帮助其自身管理基础设计上的总负载。

当然，不同账户类型和使用层级，拥有不同的速率限制。下图显示了 OpenAI API 的默认极值，其中极值根据两种方式测量:RPM（每分钟请求数）和 TPM(每分钟 tokens 数)。

当然，遇到特殊情况或者有强有力理由时，也可以单独向 OpenAI 申请速率限制增加。随着 AI 应用场景的丰富，越来越多的用户希望 OpenAI 可以直接先提升一波访问限制。

可以想象的是，速率限制的提升也需要 OpenAI 付出一定的代价，譬如更强大的计算能力和基础设施支持、增加对网络带宽的需求，或者从软件维度入手，改进算法、并行化处理、减少延迟等措施。

更好的 GPTs

今年11月，Sam Altman宣布「GPTs 现已经对所有 ChatGPT 订阅者开放」，这意味着人人可零代码制作智能体的时代已来临。同时在首届开发者日上，OpenAI 还宣布了将推出GPT 商店，以帮助经过验证的开发人员将他们的产品货币化。

有些遗憾的是，OpenAI 遭遇内乱，虽然原董事会成员将 Sam Altman 踢出局几天后，最终其成功回归，但是这一事件对于内部原定的产品发布计划带来了干扰。

因为这一突发事件，OpenAI 告知用户 GPT Store 应用将推迟至2024年上线。所以，面向未来，更加丰富的 GPTs 在新的一年里落地也并不是什么难事。

更优秀的推理能力

推理能力是指大模型在处理复杂任务、解决问题或生成有逻辑关联的连贯文本时所表现出的能力，它能够在理解和应用已有知识，进行推理、归纳和演绎，从而产生准确、合理的推断和推理结果。

要想提升推理能力，或可以通过模型架构改进、更大规模的训练数据、预训练和微调策略改进、多任务学习以及结合外部知识和语境等方法来提升推理能力。

对觉醒/行为程度的控制

这一点涉及到了 AI 系统的伦理和安全性。AI 技术的应用和发展需要在法律、伦理和社会框架下进行，以确保其对人类的利益和福祉产生积极影响。当然，这也绝非 OpenAI 一家就可以解决的事情，需要联合政府、监管机构以及开发者和研究机构共同参与，最终确保对 AI 系统的使用是可靠、透明和受控制的。

视频处理生成能力

目前相较于文本、音频、图像维度，大模型在处理视频功能方面的能力还相对有限，对于视频数据的处理需要更复杂的架构和技术。

视频数据通常具有高维度和大量的时间序列信息，处理起来更加复杂和耗时。此外，视频的处理还涉及到视觉内容的识别、跟踪、动作理解等方面，需要更深入的视觉理解能力。

这也是 OpenAI 等诸多大模型企业正在发力的下一站。

个性化定制

大模型的个性化也成为目前的一个主流趋势。个性化大模型的目标是提供更加符合用户个性化需求的输出结果，增强用户的满意度和体验。它可以通过考虑用户的个性化信息、上下文和反馈来实现，它与通用大模型的根本区别在于更加拟人化。

不过，在实施个性化时，需要 OpenAI 等开发商平衡个性化和隐私保护之间的关系。

更强的联网搜索能力

ChatGPT 的知识库更新时间已经被网友诟病很久了，GPT-3.5的知识库截止日期是2021年9月，GPT-4的知识库截止到2023年4月。在语言型的文本内容处理上，能够符合基本诉求。而涉及到新闻类、知识类的任务上，用户对于时效性的要求就更高了，提出了希望 OpenAI 增加实时联网搜索的产品能力。

OpenAI 账号支持社交登录

有网友提出希望 OpenAI 账号支持其他网站的社交登录，该功能也很合理。因为 OpenAI 目前拥有超过10亿用户，也成为了历史上用户增长速度最快的产品。根据当前的统计数据，ChatGPT 当前拥有超过1.8亿用户，每周活跃用户数达到1亿。

该需求也能看出，网友们对 OpenAI 持续增长的预期，毕竟只有国民级应用开发社交登录需求才比较合理。

开源

开源的话题，其实是在该 Twitter 评论里呼声最高的新年期待，有开发者提到希望 OpenAI 能够开源他们的权重和数据集，但是 Altman 把开源列在了最后一项。

OpenAI 一度因为开闭源问题，而被调侃为 CloseAI。宣称开源的大模型，是真开源还是假开源的话题，也一直引发行业内的讨论。

OpenAI 断层式的领先，让其他玩家不得不使用开源策略尝试弯道超车，行动最快的当属 Llama2，Llama2的开源促使全球的大模型生态，在过去几个月里得到了飞速发展。Llama2的生态蓬勃成长，也让 Meta 利用生态重振旗鼓的计划，得以看见希望。

在今年1024程序员节的岳麓对话「九问中国大模型掌门人」中，IDEA 研究院讲席科学家张家兴表示「开源代码是公海理念，大家都投入贡献，开源项目的发起方会得到很多收益。但是开源模型与开源代码不同，如果修改了某个参数，模型性能也有所不同。开源模型后，就存在继续训练的可能性，如果有人能继续训练，那么模型的谱系将变得非常大，它会形成一棵树的结构。从另一个角度来说，我们也希望大家都能真开源，比如更多的开源训练代码、训练数据，能真正帮助开发者们继续训练和微调。」

月之暗面的创始人杨植麟对大模型开源的观点是:「团队应该根据自己的发展方向，选择是否开闭源。如果计划像 OpenAI 一样的闭源，可能是通往 Super APP（超级应用）的唯一通路，而开源只是 ToB 的获客手段。」

杨植麟认为「凡要做 C 端超级 APP 的，都是闭源。」

写在最后

目前，AI 已经取得了长足的进步，但仍然存在许多挑战和限制:

从技术角度来看，AI 的发展受到算力、数据质量和算法架构等方面的限制。随着硬件的进步和算法的不断改进，可以预期 AI 的性能将继续提升。

此外，AI 的发展还受到伦理、法律和社会因素的约束。AI 技术引发了一系列关于隐私、数据安全、就业影响、责任分配等问题的讨论。这些问题需要综合考虑，并在 AI 的发展过程中制定相应的规范和政策。

作为 AI 领域的独角兽，OpenAI在2024年又会带来哪些让人惊艳的功能和产品，让我们拭目以待~

参考:

https://www.linkedin.com/pulse/what-expect-from-gpt-5-fireflies-inc-vll6f/?trk=article-ssr-frontend-pulse_more-articles_related-content-card

https://twitter.com/sama/status/1738673279085457661

折射OpenAI新一年技术路线图透视SamAltman的12个愿望清单

0000

评论列表

共(0)条

相关推荐

站长资讯
男子用AI换脸非法牟利杭州检方提起公诉
萧山区检察院最近对涉嫌制作传播淫秽物品牟利罪的被告人虞某某提起了公诉。在审查中，该院发现虞某某的行为不仅涉嫌刑事犯罪，而且还涉及到损害社会公共利益的行为。
站长网2023-06-21 16:47:42
0000
12306候补购票功能优化增加候补订单和备选方案数量
12306网站、App候补购票功能升级:用户可同时提交6个订单，扩大候补选择范围中国铁路官方宣布，自即日起，12306网站和App的候补购票功能将进行升级。此次升级旨在提高旅客候补购票的成功率，为用户提供更加便捷和高效的购票体验。以下是本次升级的主要内容:增加候补订单数量:每名旅客可提交的待兑现候补订单数量由原来的2个增至6个，每个订单最多可添加9名乘车人。
站长网站长资讯2024-01-11 13:56:17
0000
站长资讯
亚马逊 AWS 推出 Amazon EC2 Capacity Blocks 服务，为人工智能项目提供按需 Nvidia H100 GPU 资源
为了解决大型语言模型运行所需的GPU资源短缺问题，亚马逊AWS今日推出了AmazonElasticComputeCloud(EC2)CapacityBlocksforML服务。该服务允许客户按照定义的时间购买NvidiaH100TensorCoreGPU资源，用于执行特定的AI相关任务，如训练机器学习模型或运行现有模型的实验。
站长网2023-11-02 16:54:47
0000
站长资讯
高通推出全球首款汽车Wi-Fi 7解决方案
高通技术公司推出了全球首款汽车Wi-Fi7解决方案，即高通QCA6797AQ，作为骁龙汽车智联平台的最新产品。这一解决方案旨在满足汽车用户对先进车内体验和应用的需求，提供更稳定、更快速的无线连接。Wi-Fi7引入了一系列新技术创新，包括高频并发、多链路多射频、320MHz信道带宽、4KQAM和自适应打孔等，这些技术将提高连接的可靠性、降低时延，增加网络容量，支持更快的连接。
站长网2024-02-21 08:56:24
0002
站长资讯
首个AI软件工程师震撼硅谷！手握10块IOI金牌，他们铁了心砸掉程序员饭碗
一觉醒来，程序员怕是真要失业了。首个AI软件工程师一亮相，直接引爆整个科技圈。只需一句指令，它可端到端地处理整个开发项目。在SWE-bench基准测试中，它无需人类帮助，可解决13.86%的问题。相比之下，GPT-4只能处理1.74%的问题，且都需要人类提示告知处理哪些文件。可以说，它远远超过了此前所有AI大模型。
站长网2024-03-13 14:16:40
0001