2024年,AI“魔盒”还能开出什么?
刚刚过去的2023年里,GPT大模型开启了普通人走向AI世界的“魔盒”,也拉开了全球各国科技公司的大模型“军备赛”。
文本、图片、视频大模型纷纷涌现后,应用端狂卷创新,也造成AI芯片资源紧缺,“AI替代论”、“风险质疑”无时无刻不在上演。AI的一面是人类对先进生产力的狂热追求,另一面是人类面对新技术的担忧。
站在2024年回望,AI还远远没有到取代人类的阶段,技术瓶颈也显露出来:芯片技术限制了人工智能(AI)通往通用人工智能(AGI)的速度;用于训练大模型的数据们被视作“珍惜材”,掌握在互联网公司的手里;而商业化后的AI应用还没有普惠每个人,国内的不好用,海外的不便宜。
假如将它放在更长的时间维度看,当前的AI大模型最多算是人类刚刚发现火源。如何用、用在哪将是2024年AI向前的方向。我们还看到,OpenAI、谷歌等AI科技公司们开始研发芯片了,“盗火者”们正在将火力开大。
图源备注:图片由AI生成,图片授权服务商Midjourney
互联网“新大陆”
2023年,AI领域出现了许多历史首次,很多都是ChatGPT带来的。
ChatGPT让普通人第一次见识了计算机对自然语言的理解,人工智能不再是电影中神奇的“秘密武器”;非人类的ChatGPT首次上榜“2023年度十大科学人物”。
从2022年11月发布到现在,OpenAI发明的ChatGPT所引起的关注和产生的影响,已经超越了信息技术历史上几乎所有热点:用户数2天达到100万,2个月达到1亿,打破TikTok之前的纪录。半年后,ChatGPT iOS App一经发布快速登顶苹果应用商店总排行榜。
对于ChatGPT来说,更具时代意义的是,它成功打破了科技巨头对AI技术的垄断,将能理解人类语言的产品带到了每一个普通人面前。
ChatGPT是许多人平生第一次接触到如此高智能的对话系统,会写文案,会算数学,上知天文,下知地理,能读懂故事,也看得懂网络热梗。尽管起初会“一本正经的胡说八道”,产生幻觉,但它会在人类的提示中修正。
ChatGPT背后的通用大语言模型的更迭速度也十分惊人,仅仅一年,就从GPT3.5版本升级到了GPT4Turbo版本。而在一个多月前,也就是2023年11月初,OpenAI在开发日上正式宣布了GPTs计划,ChatGPT Plus用户可以在GPT-4的基础上,利用自己拥有或找到的数据训练出一个专属的ChatGPT对话机器人。
OpenAI再次让人惊掉了下巴,而GPT-5的商标申请已经在册。根据美国专利商标局展示的信息,GPT-5提供的功能包括自然语言处理、文本生成、理解、语音转录、翻译、预测和分析等。
OpenAI提交了GPT-5的商标申请
在OpenAI官方的蓝图中,他们之后还会上线GPTs商店,支持用户上架自己训练的机器人并提供给其他用户付费使用,由此建立一个新的商业形态。短短不到两个月的时间,用户通过自定义GPTs构建的特定领域ChatGPT助手已超过数十万个,其欢迎程度可见一斑。
2024年,OpenAI若开放“GPT商店”,又一波应用热潮将席卷互联网。
应用爆发
OpenAI成功如同哥伦布发现新大陆一样,他告诉了所有人:这条路走得通。也就在这短短的一年时间内,ChatGPT直接刺激了全球科技公司之间的人工智能军备竞赛。
数据显示,截至今年10月,在不到一年时间,中国拥有10亿参数规模以上大模型的厂商及高校院所就超过了250家,这里还不包含国外大模型的数量。AI应用更是喷涌而出,Sensor Tower报告显示,仅在2023年上半年,AI应用下载量同比增长114%,突破3亿次,超出2022年全年水平。与此同时,AI应用内购收入同比激增175%,逼近4亿美元。
激烈的竞赛中,成千上万个大模型进化出了文生图、图生图、文生视频、图生视频等强大的多模态能力。人们刚刚还惊讶于ChatGPT的能说会道,眨眼间,Bard、Clude等识网梗的模型就出现了。
此外,一些垂直领域也杀出了“独角兽”。
在图片生成上,Midjourney一马当先,成为最强的文生图工具。从出生到现在,短短半年,Midjourney已经更迭至V6版本,从最初的文生图向图生图、AI扩图多能力发展。
更令人惊叹的是,在Midjourney背后,是仅成立2年的11人的团队。随着Midjourney的蹿红,团队已经扩展至40人,仅在今年就实现了2亿美元的营收,早早就实现了经济独立。
与大多数追求风投的初创公司不同的是,Midjourney没有拿VC一分钱,“客气一点的说法是,他不需要VC进入他的生活。”微软旗下风投基金M12的合伙人Michael Stewart表示。
AI应用发展速度之快可用“日更”形容。
Midjourney走红后不久,Runway公司的Gen-2在视频领域接棒,与其初代产品Gen-1相差仅仅1个月。最新版本的Gen-2不仅可以仅根据一句提示词就可以生成18秒的视频,且能熟练运用电影镜头语言。就在最近,Gen-2新增了图生视频的功能,只需“涂抹”图片中的某个区域,就可以让它动起来。
AI卷向视频赛道,Pika1.0、Stable Video Diffusion等后起之秀奋起直追,各类AI视频工具“斗法”,进化速度越来越快。其中,刚刚推出没多久的Pika1.0的文生视频能力已经可以和Gen-2相媲美,甚至首次将AI扩图能力带到了视频界。
2024年,大模型的多模态潜力还将被这些独角兽继续发掘,甚至产生新的独角兽。文本、图片、音频、视频这些代表人类自然语言的产物仍会被AI工具精耕细作,而工具将很可能在规模化下变得更加趁手和便宜。
芯片瓶颈
科技大公司卷大模型,小公司卷应用,竞争之外,“卖水者”英伟达赚得盆满钵满。数据显示,英伟达最新第三财季营收达181亿美元,同比增长206%;净利润92亿美元,同比增长高达1259%。而引发这场竞赛的“领头羊”OpenAI的2023年营收仅达到13亿美元。在去年,OpenAI的营收也才2800万美元。
2023年,英伟达无疑坐稳了AI的风口,芯片价格一路水涨船高,即便价格高涨,芯片仍是“一卡难求”,有消息称,英伟达H100的交付周期长达36周至52周不等,如此长的交付周期明显无法满足AI产品发展的需求。这也可能是GPT-5长时间未到来的原因。
算力作为驱动AI发展的三驾马车之一,芯片的短缺直接影响了大模型的进化速度,OpenAI、谷歌下场自研芯片,以补充自家大模型训练的缺口。
英伟达的竞争者们也抢着分“蛋糕”,英特尔和AMD分别推出Gaudi3和Instinct MI300X高性能AI芯片,微软公布AI加速芯片Azure Maia100,亚马逊则发布了面向AI系统的升级款加速器芯片Trainium2。
与此同时,美国的芯片制裁进一步加剧了中国芯片短缺的危机。为保市场,英伟达只能推出一些性能缩水的“阉割版”芯片。
行至2023年末,无论国内还是海外,仍未出现一款可以媲美英伟达H100的芯片,尽管芯片厂商已经开足马力,但短期内,芯片资源紧缺的情况仍会持续。或许只有等到AI芯片资源问题被解决,GPT-5以及更加先进、丰富的产品才能更快到来。
但从安全角度来看,这也并非完全是坏事。在这短暂的喘息之际,人类可以为人工智能的发展方向做一个更佳的选择。
要知道,GPT-4刚刚发布时,一封上千名科技精英的联名信将AI安全问题推至聚光灯下,他们联名请求“暂停训练比GPT-4更强大的AI系统”,用AI领域的专家Gary Marcus的话说:“用百分之一的人类毁灭风险换取和机器对话的乐趣,这值得吗?”
的确,ChatGPT刚刚推出时,其颠覆性的创造力确实让人震撼,微软的创始人比尔·盖茨也强调过AI失控的可能性是存在的。
今年初,网络还充满着“AI抢饭碗”“AI取代人类”的担忧,甚至出现了“碳奸”的梗。但一年过去了,现在大家对去AI的态度已经回归理智。
我们还没有真的看到“打工人”因为AI而大规模失业,至少在国内,AI被普遍运用到工作中仍是未来进行时。与此同时,OpenAI等代表性企业的AI安全措施也不得不跟上,各个国家的AI安全审查机构相继成立。
AI的前进是必然的,“火”到底怎么用还在于人类的选择,一席人在制造控制火苗的炉子,另一些人着力火苗还能点亮哪些荒漠。
2024年,安全仍将是AI发展的主题之一,芯片则是生产力能否进一步提升的关键,唯一可以确定的是,AI将如同互联网一样,将成为未来必不可少的人类工具。
美国教授用2岁女儿训AI模型登Science!人类幼崽头戴相机训练全新AI
【新智元导读】为训练AI模型,纽约州立大学的一名教授BrendenLake,竟让自己不到2岁女儿头戴相机收集数据!要知道,Meta训Llama3直接用了15万亿个token,如果Lake真能让AI模型学习人类幼崽,从有限的输入中学习,那LLM的全球数据荒岂不是解决了?绝了,为了训练AI模型,一位纽约州立大学的教授,竟然把类似GoPro的相机绑在了自己女儿头上!站长网2024-05-13 14:02:310000这些「黑话」,产品经理搞懂后少吃亏
产品经理在实际工作中经常会遇到一些“技术黑话”,这些专业术语经常让非技术背景的产品经理们经常不知所云,非常难受。因此,也带来了很多沟通和理解的问题。我之前梳理了一些以通俗的方式来理解“黑话”的方法,这里拿出来再分享下,希望对于非技术背景的产品经理们有所帮助。1、程序员口中的“写死”是什么意思?站长网2023-05-30 18:05:390000iOS17.2为 iPhone15Pro 的操作按钮添加翻译功能
苹果最近发布了iOS17.2更新,为iPhone15Pro系列的操作按钮添加了新的翻译功能。这个功能允许用户将翻译任务分配给操作按钮。当按下操作按钮时,它将启动翻译应用程序的对话模式,无需离开当前应用程序。这极大地简化了在不同语言之间快速翻译短语或进行对话的过程。站长网2023-10-27 09:46:570000Persistent 与 Google Cloud 合作推出生成式 AI 解决方案
站长之家(ChinaZ.com)8月1日消息:Persistent宣布加强与谷歌云的合作伙伴关系,推出了一套由谷歌云驱动的生成式人工智能解决方案。这些解决方案将为客户提供帮助,让他们在AI的旅程中,从AI探索者到生成式AI颠覆者,通过理解如何成功地识别和实施这些先进技术,使其业务具备规模。站长网2023-08-01 10:43:360000微软发布DragNUWA 1.5版本 可精细控制视频物体的运动路径
微软最近发布了DragNUWA1.5版本,这个新版本的功能让用户在通过图像生成视频之前,能够在图像上画出对应方向的箭头标记。这意味着,如果你标记的不是具体的物体,镜头就会按照你标记的方向运动。而如果你标记的是具体的物体,这个物体就会按照标记的方向运动。项目地址:https://top.aibase.com/tool/dragnuwa站长网2024-01-09 10:51:390000