手机的生成式AI,可能是传统软件企业的最后机会
众所周知,如今在智能手机行业中,“生成式AI”已然成为了最为知名的卖点之一。
不管是什么价位段的智能手机,现在通常都会宣传自己集成了“生成式AI”功能。它们有的表现为能与用户自然、流畅对话,生成各种建议的“语音智能体”,有的则表现为能自动帮用户总结文章、剪辑文字,或是将照片自动拼接为视频的“创作助手”。
当然,相比之下最令人印象深刻的手机生成式AI特性,可能还得数那些“AI消除”、“AI修图”功能了。即便是完全不懂专业P图技术的消费者,也可以通过简单的圈选,就在生成式AI的辅助下方便地消除照片里的瑕疵,甚至达到几乎相当于“重拍”的效果。
但如今一个客观存在的事实就在于,至少对于目前的智能手机来说,无论是“生成式AI修图”、还是“生成式文本总结”、“生成式知识库问答”等功能所需的算力,普遍都大幅超出了它们的性能水准。所以这也就意味着,现阶段不管是哪个手机厂商、哪个型号,它们所搭载的“生成式AI”功能几乎都要依赖于云端算力,以及运行在云端服务器上的大模型。
这样一来问题自然也就产生了,那就是这些手机上的云端生成式AI功能,到底要用谁家的解决方案呢?
对手机行业来说,第三方AI很有必要
可能有的朋友会说,这有什么好问的,谁家造的手机,难道不都是用它们自己的云端算力和算法吗?
这还真不一定。一方面手机市场如今并不是只有大家熟知的少数几个头部品牌,实际上还是存在着不少二三线厂商。虽然它们的销量客观上来说并不是特别低、产品定位也不见得就极端“非主流”,所以对于这些厂商来说,其不可能完全无视“生成式AI”的潮流,但本身又没有相应的技术去自行实现。
另一方面,对于某些国际大厂而言,它们也不得不寻求在国内自建服务器,或是用更简单的办法来解决问题,也就是直接找国内厂商合作,借用它们的算法和算力、形成一套自己的“特供版”AI应用。
举个典型的例子来说,可能有的朋友知道,三星手机在海外市场的生成式AI功能,是他们与谷歌的合作成果。甚至现在海外三星手机上的一些AI特性,都要比谷歌自家机型上的还要版本更新、功能更多。
但很显然,“海外三星”的AI技术体系并不能直接套用到国内产品上。所以最后的结果,就是国行保留了三星自己的AI计算框架,却转而使用了来自百度、WPS,以及美图秀秀等多和国内软件厂商的技术体系,从而完成“海外同款”的生成式AI功能。
给修图AI注册商标,谷歌也抵挡不住诱惑
有趣的是,说到谷歌,他们现在似乎也开始重视起自家的“生成式AI”功能了。就在近日,谷歌方面被曝注册了名为“RealFill”的商标,指的就是他们自研的生成式照片修复算法(和功能)。
据相关专利显示,RealFill可以使用多张不同角度、不同构图的照片,生成出一张构图合理、主体清晰的“完美照片”。很显然,它适合那种喜爱拍照、但是技术不佳,经常拍了很多张却挑不出一张好照片的朋友们。
但这件事最有意思的地方,在于谷歌其实很早就已经涉足智能手机影像算法,而且很多年前就曾和一些第三方手机厂商有过技术合作。但当时谷歌完全没有提出“品牌露出”的需求,手机厂商也并不需要让消费者知道,他们用的是“谷歌相机”或者谷歌算法”。
Pixel系列的影像算法早前也曾被其他品牌用过,但并没有进行任何宣传
但到了现在,至少在生成式AI修图这件事上,谷歌很明显地开始重视起了“品牌形象”。换句话说,未来采用这项技术的手机厂商,可能都得需要在他们的软件界面、或者至少是发布会上露出谷歌和“RealFill”的品牌LOGO了。
AI已成软件行业风口,但“窗口期”恐怕不会太长
那么这些都意味着什么呢?简单来说,手机上的生成式AI不管它的实际技术水平如何,其实都已经成为了一个极具宣传价值的“风口”。
特别是在如今的背景下,一方面是手机厂商不可能家家都做到自研算法、自建算力。另一方面,由于目前的手机端侧生成式AI功能多半集中在搜索、问答、文本处理和图像编辑领域,这就很自然地会使得那些原本就具备相应技术积淀的一些软件企业,突然一下子成为行业里的“香饽饽”。
当然,从另一个角度来说,对于这些现在手握技术、手握算力的软件企业而言,这也很可能就是它们“最后的机会”了。因为如果不趁着现在树立起自身的技术标准和产品形象(就像谷歌打算做的那样),那么再过几年,智能手机的性能进一旦进化到真的可以实现完全的端侧AI、真的完全无需云端算力时。届时的软件、算法提供商很可能会再一次失去他们的潜在客户,重新变回前几年的“透明”状态。
ChatGPT与DALL·E 3之间的行业「黑话」被人发现了
原来,礼貌和强调(emphasis)在大型语言模型(LLMs)的沟通中也发挥着意想不到的作用。上个月底,OpenAI发布了最新图像生成器DALL・E3,除了炸裂的生成效果外,最大看点是其与ChatGPT的集成。DALL・E3构建在ChatGPT之上,用ChatGPT来创建、拓展和优化prompt。这样一来,用户无需在prompt上花费太多时间。站长网2023-10-22 15:54:110000消息称字节研发大模型新项目代号O
据Tech星球消息,抖音社交负责人陆游,已经调岗至大模型团队担任相关负责人,向大模型团队负责人朱文佳汇报。另外,字节内部正在研发新的大模型项目,代号“O”。此前,陆游一直在负责抖音的社交体系和项目,任职期间,孵化了多个社交项目,包括此前的虚拟社交功能“抖音仔仔”,以及密友社交“抖音时刻”等。站长网2023-07-20 16:18:010002AntGPT:一个视频中长期行为预测大型语言模型
AntGPT是一个将大型语言模型应用于视频长期行为预测(LTA)的视觉语言框架。研究人员通过使用监督动作识别算法识别人类活动,并将其作为离散化的视频表示输入给OpenAIGPT模型。通过自回归方法、微调或上下文学习,GPT模型可以预测未来的行动序列,从而实现从底向上的行动预测。项目地址:https://brown-palm.github.io/AntGPT/站长网2023-08-07 10:38:220000综艺后期狂喜:编辑一帧,整个视频跟着变!比LNA渲染快5倍,Adobe联合出品
前不久跑男为了让“kunkun”原地消失,后期只能一帧一帧的抠图。现在,只要编辑一帧,整个视频就跟着变!就是点点kunkun,整集就自动消失的那种(手动狗头)。AdobeResearch和英属哥伦比亚大学的研究人员发现,使用INVE(交互式神经视频编辑),只需在单帧上“画笔涂鸦”,就能自动应用改动到整个视频中。站长网2023-07-23 14:23:090000Apple开源Apple Silicon机器学习框架MLX
Apple开源的MLX是一个适用于苹果芯片的机器学习框架。它具有许多功能,包括熟悉的API、可组合的函数转换、延迟计算、动态图构建和多设备支持等。站长网2023-12-06 16:49:410002