2024年，AI“魔盒”还能开出什么？

站长网2024-01-02 09:35:010阅

刚刚过去的2023年里，GPT大模型开启了普通人走向AI世界的“魔盒”，也拉开了全球各国科技公司的大模型“军备赛”。

文本、图片、视频大模型纷纷涌现后，应用端狂卷创新，也造成AI芯片资源紧缺，“AI替代论”、“风险质疑”无时无刻不在上演。AI的一面是人类对先进生产力的狂热追求，另一面是人类面对新技术的担忧。

站在2024年回望，AI还远远没有到取代人类的阶段，技术瓶颈也显露出来:芯片技术限制了人工智能（AI）通往通用人工智能(AGI)的速度;用于训练大模型的数据们被视作“珍惜材”，掌握在互联网公司的手里;而商业化后的AI应用还没有普惠每个人，国内的不好用，海外的不便宜。

假如将它放在更长的时间维度看，当前的AI大模型最多算是人类刚刚发现火源。如何用、用在哪将是2024年AI向前的方向。我们还看到，OpenAI、谷歌等AI科技公司们开始研发芯片了，“盗火者”们正在将火力开大。

图源备注：图片由AI生成，图片授权服务商Midjourney

互联网“新大陆”

2023年，AI领域出现了许多历史首次，很多都是ChatGPT带来的。

ChatGPT让普通人第一次见识了计算机对自然语言的理解，人工智能不再是电影中神奇的“秘密武器”;非人类的ChatGPT首次上榜“2023年度十大科学人物”。

从2022年11月发布到现在，OpenAI发明的ChatGPT所引起的关注和产生的影响，已经超越了信息技术历史上几乎所有热点:用户数2天达到100万，2个月达到1亿，打破TikTok之前的纪录。半年后，ChatGPT iOS App一经发布快速登顶苹果应用商店总排行榜。

对于ChatGPT来说，更具时代意义的是，它成功打破了科技巨头对AI技术的垄断，将能理解人类语言的产品带到了每一个普通人面前。

ChatGPT是许多人平生第一次接触到如此高智能的对话系统，会写文案，会算数学，上知天文，下知地理，能读懂故事，也看得懂网络热梗。尽管起初会“一本正经的胡说八道”，产生幻觉，但它会在人类的提示中修正。

ChatGPT背后的通用大语言模型的更迭速度也十分惊人，仅仅一年，就从GPT3.5版本升级到了GPT4Turbo版本。而在一个多月前，也就是2023年11月初，OpenAI在开发日上正式宣布了GPTs计划，ChatGPT Plus用户可以在GPT-4的基础上，利用自己拥有或找到的数据训练出一个专属的ChatGPT对话机器人。

OpenAI再次让人惊掉了下巴，而GPT-5的商标申请已经在册。根据美国专利商标局展示的信息，GPT-5提供的功能包括自然语言处理、文本生成、理解、语音转录、翻译、预测和分析等。

OpenAI提交了GPT-5的商标申请

在OpenAI官方的蓝图中，他们之后还会上线GPTs商店，支持用户上架自己训练的机器人并提供给其他用户付费使用，由此建立一个新的商业形态。短短不到两个月的时间，用户通过自定义GPTs构建的特定领域ChatGPT助手已超过数十万个，其欢迎程度可见一斑。

2024年，OpenAI若开放“GPT商店”，又一波应用热潮将席卷互联网。

应用爆发

OpenAI成功如同哥伦布发现新大陆一样，他告诉了所有人:这条路走得通。也就在这短短的一年时间内，ChatGPT直接刺激了全球科技公司之间的人工智能军备竞赛。

数据显示，截至今年10月，在不到一年时间，中国拥有10亿参数规模以上大模型的厂商及高校院所就超过了250家，这里还不包含国外大模型的数量。AI应用更是喷涌而出，Sensor Tower报告显示，仅在2023年上半年，AI应用下载量同比增长114%，突破3亿次，超出2022年全年水平。与此同时，AI应用内购收入同比激增175%，逼近4亿美元。

激烈的竞赛中，成千上万个大模型进化出了文生图、图生图、文生视频、图生视频等强大的多模态能力。人们刚刚还惊讶于ChatGPT的能说会道，眨眼间，Bard、Clude等识网梗的模型就出现了。

此外，一些垂直领域也杀出了“独角兽”。

在图片生成上，Midjourney一马当先，成为最强的文生图工具。从出生到现在，短短半年，Midjourney已经更迭至V6版本，从最初的文生图向图生图、AI扩图多能力发展。

更令人惊叹的是，在Midjourney背后，是仅成立2年的11人的团队。随着Midjourney的蹿红，团队已经扩展至40人，仅在今年就实现了2亿美元的营收，早早就实现了经济独立。

与大多数追求风投的初创公司不同的是，Midjourney没有拿VC一分钱，“客气一点的说法是，他不需要VC进入他的生活。”微软旗下风投基金M12的合伙人Michael Stewart表示。

AI应用发展速度之快可用“日更”形容。

Midjourney走红后不久，Runway公司的Gen-2在视频领域接棒，与其初代产品Gen-1相差仅仅1个月。最新版本的Gen-2不仅可以仅根据一句提示词就可以生成18秒的视频，且能熟练运用电影镜头语言。就在最近，Gen-2新增了图生视频的功能，只需“涂抹”图片中的某个区域，就可以让它动起来。

AI卷向视频赛道，Pika1.0、Stable Video Diffusion等后起之秀奋起直追，各类AI视频工具“斗法”，进化速度越来越快。其中，刚刚推出没多久的Pika1.0的文生视频能力已经可以和Gen-2相媲美，甚至首次将AI扩图能力带到了视频界。

2024年，大模型的多模态潜力还将被这些独角兽继续发掘，甚至产生新的独角兽。文本、图片、音频、视频这些代表人类自然语言的产物仍会被AI工具精耕细作，而工具将很可能在规模化下变得更加趁手和便宜。

芯片瓶颈

科技大公司卷大模型，小公司卷应用，竞争之外，“卖水者”英伟达赚得盆满钵满。数据显示，英伟达最新第三财季营收达181亿美元，同比增长206%;净利润92亿美元，同比增长高达1259%。而引发这场竞赛的“领头羊”OpenAI的2023年营收仅达到13亿美元。在去年，OpenAI的营收也才2800万美元。

2023年，英伟达无疑坐稳了AI的风口，芯片价格一路水涨船高，即便价格高涨，芯片仍是“一卡难求”，有消息称，英伟达H100的交付周期长达36周至52周不等，如此长的交付周期明显无法满足AI产品发展的需求。这也可能是GPT-5长时间未到来的原因。

算力作为驱动AI发展的三驾马车之一，芯片的短缺直接影响了大模型的进化速度，OpenAI、谷歌下场自研芯片，以补充自家大模型训练的缺口。

英伟达的竞争者们也抢着分“蛋糕”，英特尔和AMD分别推出Gaudi3和Instinct MI300X高性能AI芯片，微软公布AI加速芯片Azure Maia100，亚马逊则发布了面向AI系统的升级款加速器芯片Trainium2。

与此同时，美国的芯片制裁进一步加剧了中国芯片短缺的危机。为保市场，英伟达只能推出一些性能缩水的“阉割版”芯片。

行至2023年末，无论国内还是海外，仍未出现一款可以媲美英伟达H100的芯片，尽管芯片厂商已经开足马力，但短期内，芯片资源紧缺的情况仍会持续。或许只有等到AI芯片资源问题被解决，GPT-5以及更加先进、丰富的产品才能更快到来。

但从安全角度来看，这也并非完全是坏事。在这短暂的喘息之际，人类可以为人工智能的发展方向做一个更佳的选择。

要知道，GPT-4刚刚发布时，一封上千名科技精英的联名信将AI安全问题推至聚光灯下，他们联名请求“暂停训练比GPT-4更强大的AI系统”，用AI领域的专家Gary Marcus的话说:“用百分之一的人类毁灭风险换取和机器对话的乐趣，这值得吗?”

的确，ChatGPT刚刚推出时，其颠覆性的创造力确实让人震撼，微软的创始人比尔·盖茨也强调过AI失控的可能性是存在的。

今年初，网络还充满着“AI抢饭碗”“AI取代人类”的担忧，甚至出现了“碳奸”的梗。但一年过去了，现在大家对去AI的态度已经回归理智。

我们还没有真的看到“打工人”因为AI而大规模失业，至少在国内，AI被普遍运用到工作中仍是未来进行时。与此同时，OpenAI等代表性企业的AI安全措施也不得不跟上，各个国家的AI安全审查机构相继成立。

AI的前进是必然的，“火”到底怎么用还在于人类的选择，一席人在制造控制火苗的炉子，另一些人着力火苗还能点亮哪些荒漠。

2024年，安全仍将是AI发展的主题之一，芯片则是生产力能否进一步提升的关键，唯一可以确定的是，AI将如同互联网一样，将成为未来必不可少的人类工具。