Meta 推出基于 token 的全新 AI 图像生成模型 CM3leon:更高效先进
Meta 正在继续推进对新形式生成式人工智能模型的研究,并公布了最新成果,名为 CM3leon(发音类似于「chameleon(变色龙)」)。
图片来自Meta
CM3leon 是一个用于文本到图像创建和图像到文本创建的多模态基础模型,对于自动生成图像标题非常有用。
人工智能生成的图像在当前已经不是新概念,广泛可用的工具如 Stable Diffusion、DALL-E 和 Midjourney 已经取得了很大成功。
新鲜的是 Meta 正在使用构建 CM3leon 的技术以及 Meta 声称该基础模型能够实现的性能。
当前文本到图像生成技术主要依赖 diffusion 模型(Stable Diffusion 的名称源自此)来创建图像。CM3leon 则采用了不同的方法:基于 token 的自回归模型。
Meta 的研究人员在一篇名为《Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning》的研究论文中写道:「近年来,由于性能强大且相对计算成本较低,diffusion 模型在图像生成工作中占据主导地位。相比之下,众所周知基于 token 的自回归模型也能产生出色的结果,尤其在全局图像连贯性方面更好,但训练和推理的成本要高得多。」
Meta 的研究人员已经能够通过 CM3leon 实际演示基于 token 的自回归模型实际上可以比基于 diffusion 模型的方法更高效。
Meta 的研究人员在一篇博客文章中写道:「尽管使用的计算资源比之前基于Transformer 的方法少了五倍,CM3leon 在文本到图像生成方面实现了最先进的性能。」
CM3leon 的基本工作原理在某种程度上与现有的文本生成模型类似。
Meta 的研究人员首先进行了一个检索增强的预训练阶段。与仅从互联网上收集公开可用的图像不同,这种方法已经给基于 diffusion 模型的模型带来了一些法律挑战,Meta 选择了一条不同的道路。
Meta 的研究论文指出:「在文本到图像生成领域,图像数据来源的道德影响已经引发了广泛的讨论。在本研究中,我们只使用 Shutterstock 上的经过授权的图像。因此,我们可以避免与图像所有权和归属相关的担忧,同时不会牺牲性能。」
在预训练之后,CM3leon 模型经过一阶段有监督微调(SFT),Meta 的研究人员声称这种方法产生了高度优化的结果,无论是资源利用还是图像质量。SFT 是 OpenAI 用于训练 ChatGPT 的一种方法。Meta 在研究论文中指出,SFT 用于训练模型理解复杂提示,在生成任务中非常有用。
论文中指出:「我们发现,指导调整显著提高了多模态模型在图像标题生成、视觉问答、基于文本的编辑和条件图像生成等各种任务中的性能。」
通过查看 Meta 在关于 CM3leon 的博客文章中分享的生成图像样本集,结果令人印象深刻,清楚地显示了模型理解复杂的多阶段提示,从而生成了分辨率极高的图像。
目前,CM3leon 仍然是一个研究项目,尚不清楚 Meta 是否会在其平台的一个服务中公开提供这项技术。鉴于它的强大性能和更高的生成效率,CM3leon 及其生成式人工智能方法有可能超越研究阶段最终得到应用。
「AI诈骗」冲上热搜第一,我们整理了一份普通人反诈指南
最近,包头警方发布了一起利用AI实施电信诈骗的案例。4月20日,一家福州公司的老板郭先生突然收到「好友」的微信视频联系,这位「好友」声称在外地竞标需要430万保证金,而且需要公对公账户过账,想要通过郭先生公司的账户走账。站长网2023-05-24 09:09:100000OpenAI员工:未来的关键技能不是提示工程,而是与人类沟通的能力
**划重点:**1.📚阅读、写作和口语将成为未来最重要的技能。2.💬提示工程与与人沟通并无不同,OpenAI员工表示。3.🤖对话AI系统的关键在于有效沟通技能,而不仅仅是提示工程。0002什么值得买“AI问答机器人”拟定于2024年2月底上线
值得买近日在互动平台宣布,其消费内容社区“什么值得买”的“AI问答机器人”新功能已正式通过国家《生成式人工智能服务管理暂行办法》备案。图源备注:图片由AI生成,图片授权服务商Midjourney这款AI问答机器人旨在为用户提供智能的消费辅助决策服务,通过对话形式与用户交互,根据用户需求指令,快速筛选全网优质好物链接。这一创新功能的推出,将进一步提升用户在消费领域的决策效率和体验。站长网2024-02-05 15:33:570000Stack Overflow 网站因 ChatGPT 人工智能崛起而裁员 28% 员工
站长之家(ChinaZ.com)10月17日消息:StackOverflow的网站帮助软件工程师获得技术问题的答案,根据首席执行官PrashanthChandrasekar周一发布的博客文章,该网站已解雇了约28%的员工。图片来自StackOverflow此举可能是迄今为止OpenAI的ChatGPT(也为同类问题提供答案)如何颠覆数字业务的最有力迹象。站长网2023-10-18 21:18:040001周鸿祎:大模型是未来五到十年的风口 具有引发新工业革命的潜力
在近日的极客公园AGIPlayground大会上,周鸿祎提出了他对AI大模型的看法。他认为大模型是未来五到十年的风口,具有引发新的工业革命的潜力。他相信大模型的未来将像AK47一样便宜、火力足、分量够,而不是像曼哈顿计划那样只有尖端科学家和巨额资金才能训练出原子弹。对于创业团队来说,与其试图与通用大模型竞争,不如聚焦于垂直领域的大模型。站长网2023-07-24 17:15:240000