GPT-5前瞻!GPT-5将具备哪些新能力?
Sam Altman在整个AI领域,乃至整个科技领域都被看作是极具影响力的存在,而2023年OpenAI无限反转的宫斗事件更是让Sam Altman刷足了存在感,他甚至被《时代》杂志评为“2023年度CEO”。
也正因此, Sam Altman的一条推文,瞬间就可以成为轰动整个AI行业的信号,特别是当这条推文还与万众期待的“GPT-5”有关的时候。
2023年平安夜,Sam Altman在社交平台大胆公布了2024年的雄心壮志。他所发表的关键词不仅涵盖了2024年OpenAI的整体规划,更契合了用户的迫切需求。这其中包括:
AGI(请耐心等待)
GPT-5
更好的语音模式
更高的费率限制
更好的GPT
更好的推理
对工作/行为程度的控制
视频
个性化
更好的浏览
“使用OpenAi登录”
开放源代码
Sam Altman透露,OpenAI计划在接下来的一年内实现多个令人瞩目的里程碑。其中所涉及到的内容,不仅仅一次简单的技术更新,更是一场至关重要的AI变革。当然,最受关注的,还是GPT-5。
AI领域的开源与闭源之争:类似于Android与IOS之争。
对于AI界来说,大家除了关心 GPT-5能否在技术壁垒上有所突破,更关心一个重点:GPT-5能否实现开源?
大模型的开源和闭源之争一直是行业内争论的焦点,这种争论,与移动互联网时代的Android与IOS之争有异曲同工之妙。有意思的是,各个AI大厂对于开源还是闭源的选择也不尽相同。
目前拔得头筹的OpenAI的GPT-4和百度的文心一言都坚持闭源,Meta选择了开源的道路,相继面向“学术研究用途”开源了LLaMA和LLaMA-2模型。百川智能则兼具开源和闭源,在学术领域选择了开源,使用7B和13B两种尺寸的大模型;商业探索上将53B闭源,以保护商业利益和技术的竞争优势。
GPT的闭源,为OpenAI带来了可观的收入。据The Information报道,OpenAI CEO Sam Altman对员工表示,公司正以每年13亿美元(约合人民币94.93亿元)的速度产生收入,平均每月收入超过1亿美元,相较于去年全年2800万美元增长超过450倍,达4542%。这个数据也比3个月前预期的年收入高30%。这也让2023年成为OpenAI公司成立8年来,收入增长最快的一年。而这些,恰恰是GPT-4闭源所带来的。
关键词:GPT-5能实现开源吗?
那么,GPT-5能实现开源吗?未必。
对于商业模式,OpenAI曾在官网中明确指出“打算继续免费提供ChatGPT”,但也会选择从付费的高级服务的用户和企业中获得收入。而且,虽然OpenAI嘴上说着“不指望在近期内盈利”,但考虑到开发和提供大模型的高成本,生存问题仍然是其不得不面对的挑战。
此外,尽管OpenAI实现了快速增长,但背后的行业成本却不容忽略。根据公开信息显示,2022年,OpenAI开发GPT-4,仅训练成本支出约5.4亿美元。2023年4月,OpenAI每天为ChatGPT支付的运营成本约694.4万美元(其中主要是电费) ,年化运营成本约为2.5亿美元,综合年化成本可能超过13亿美元。毫无疑问,OpenAI依旧处于亏损阶段。
所以,倘若没有商业化的维持,OpenAI恐怕很快会迎来破产。更重要的是,已经通过GPT-4闭源尝到甜头,获得大量收入的OpenAI,显然没有充足的理由将GPT-5完全开源,这无异于自毁壁垒,在大模型赛道的竞逐中丧失领先优势。从这个层面来说。GPT-5实现开源的概率不大。
即便Sam Altman在推文中将“开源”标注成了关键词,但更多的也只是在迎合行业的呼声,我们还不能将其解读为“企业2024年的发展目标”。
不过,“部分开源”的可能性并非没有。GPT-5完全开源的可能性虽然比较小,但是为了GPT相关生态建设,对与GPT相关的工具集提供开源的可能性却很高。或许,OpenAI会通过为较少部分提供开源的方式,为开发者的开发,调试,分享提供便利。
未来的GPT-5,究竟会具备哪些新能力?
近日,艾伦人工智能研究所发布了Unified-IO2,它的发布极具意义,因为它可以帮助我们更好的预判GPT-5的能力。
为什么这么说呢?Unified与ChatGPT之间存在着怎样的关系?
事实上,早在2022年6月,艾伦人工智能研究所就推出了第一代Unified-IO,它是首批能够处理图像和语言的多模态模型之一。大约在同一时间,OpenAI正在内部测试GPT-4,并在2023年3月正式发布。所以,Unified-IO可以看作是对于未来大规模AI模型的前瞻。换句话说,因为Unified-IO2的出现,我们可以大致预判一点:OpenAI可能正在内部测试GPT-5,并很有可能在几个月后发布。

艾伦人工智能研究所推出的Unified-IO2是第一个可以处理和生成文本,图像,音频,视频和动作序列的模型。这个新的高级人工智能模型使用几十亿个数据点进行训练,虽然模型大小只有7B,却展现出迄今为止最广泛的多模态能力。它的训练数据包括:10亿个图像-文本对,1万亿个文本标记,1.8亿个视频剪辑,1.3亿张带文本的图像,300万个3D资产和100万个机器人代理运动序列。研究团队将总共120多个数据集组合成一个600TB的包,涵盖220个视觉,语言,听觉和动作任务。Unified-IO2采用编码器-解码器架构,并进行了一些更改,以稳定训练并有效利用多模态信号。
模型可以回答问题,根据指令撰写文本、以及分析文本内容;可以识别图像内容,提供图像描述,执行图像处理任务,并根据文本描述创建新图像;可以根据描述或说明生成音乐或声音,以及分析视频并回答有关视频的问题。此外,通过使用机器人数据进行训练,Unified-IO2还可以为机器人系统生成动作,例如将指令转换为机器人的动作序列。由于多模态训练,它还可以处理不同的模态,例如,在图像上标记某个音轨使用的乐器等。
总体而言,Unified-IO2在超过35个基准测试中表现良好,包括图像生成和理解,自然语言理解,视频和音频理解以及机器人操作。在大多数任务中,它能够比肩专用模型,甚至更胜一筹。在图像任务的GRIT基准测试中,Unified-IO2获得了目前的最高分。通过这些,我们也可以更好的窥见未来GPT-5的模样。
对于AI发展而言,科技生态与商业化是缺一不可的核心要素。技术和应用的发展需要商业化提供必要的支持和保障;而商业化的成功也离不开生态环境的建设。两者之间必须相辅相成,有机结合。希望在未来发布的GPT-5中,OpenAI可以起到先导作用,率先实现生态与商业化之间的平衡。
文字资料参考:
https://baijiahao.baidu.com/s?id=1787599025284931811&wfr=spider&for=pc&searchword=GPT-5
https://k.sina.com.cn/article_1667925927_636a87a70190118py.html
https://baijiahao.baidu.com/s?id=1786220479790922625&wfr=spider&for=pc&searchword=GPT-5

百度网盘企业版将基于文心大模型升级三大应用
百度智能云表示,百度网盘企业版将基于文心大模型升级三大企业应用,包括智能文件管理、智能知识理解、智能多模态加工。针对企业开发者,百度网盘开放平台将提供多个场景解决方案,包括摄影、教育、电商等重点行业。站长网2023-05-23 17:00:590002制药巨头礼来探索 AI 在其行业的三种应用:从日常工作到药物研发
制药和生物技术行业已经开始利用人工智能改善运营方式、开发药物,并最终使员工的工作更轻松。少数生物技术公司正在对AI开发的药物进行人体测试。与此同时,数字医疗公司、医疗服务提供商和保险公司正在思考如何利用ChatGPT等技术加快诸如评估患者和完成医疗记录等任务,同时仍要保护患者的安全和隐私。站长网2023-06-16 19:39:580001英伟达 Blackwell B100 GPU 或将采用 SK 海力士 HBM3e DRAM:因人工智能需求快速增长提前到 2024 年第二季度推出
站长之家(ChinaZ.com)10月16日消息:据报道,由于人工智能需求的大幅增加,英伟达计划将其下一代BlackwellB100GPU的发布日期从2024年第四季度提前到2024年第二季度。此外,该公司预计将使用SK海力士的HBM3eDRAM来驱动其最新的芯片。站长网2023-10-16 23:02:370000阿里达摩院发布遥感AI大模型
阿里达摩院发布业内首个遥感AI大模型。据介绍,该模型可识别农田、农作物、建筑等,提升灾害防治、自然资源管理、农业估产等遥感应用的分析效率。目前,该模型已在AIEarth地球科学云平台开放使用。站长网2023-10-20 15:34:560003小米澎湃OS采用HyperConnect框架 雷军:互联互通历史性跨越
今日,雷军表示,小米的澎湃OS采用了全新的XiaomiHyperConnect框架,这一框架实现了统一互联协议和跨设备自主动态实时组网,标志着小米在互联互通领域取得了历史性的突破。这一突破的关键在于HyperConnect,它处于澎湃OS系统架构的最上层,成功打破了硬件设备之间的隔阂。通过统一连接协议,各种设备能够实时进行通信。站长网2023-10-24 21:22:550000