首页站长资讯Meta 推出基于 token 的全新 AI 图像生成模型 CM3leon：更高效先进

Meta 推出基于 token 的全新 AI 图像生成模型 CM3leon：更高效先进

站长网2023-07-18 03:16:570阅

Meta 正在继续推进对新形式生成式人工智能模型的研究，并公布了最新成果，名为 CM3leon（发音类似于「chameleon（变色龙）」）。

图片来自Meta

CM3leon 是一个用于文本到图像创建和图像到文本创建的多模态基础模型，对于自动生成图像标题非常有用。

人工智能生成的图像在当前已经不是新概念，广泛可用的工具如 Stable Diffusion、DALL-E 和 Midjourney 已经取得了很大成功。

新鲜的是 Meta 正在使用构建 CM3leon 的技术以及 Meta 声称该基础模型能够实现的性能。

当前文本到图像生成技术主要依赖 diffusion 模型（Stable Diffusion 的名称源自此）来创建图像。CM3leon 则采用了不同的方法：基于 token 的自回归模型。

Meta 的研究人员在一篇名为《Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning》的研究论文中写道：「近年来，由于性能强大且相对计算成本较低，diffusion 模型在图像生成工作中占据主导地位。相比之下，众所周知基于 token 的自回归模型也能产生出色的结果，尤其在全局图像连贯性方面更好，但训练和推理的成本要高得多。」

Meta 的研究人员已经能够通过 CM3leon 实际演示基于 token 的自回归模型实际上可以比基于 diffusion 模型的方法更高效。

Meta 的研究人员在一篇博客文章中写道：「尽管使用的计算资源比之前基于Transformer 的方法少了五倍，CM3leon 在文本到图像生成方面实现了最先进的性能。」

CM3leon 的基本工作原理在某种程度上与现有的文本生成模型类似。

Meta 的研究人员首先进行了一个检索增强的预训练阶段。与仅从互联网上收集公开可用的图像不同，这种方法已经给基于 diffusion 模型的模型带来了一些法律挑战，Meta 选择了一条不同的道路。

Meta 的研究论文指出：「在文本到图像生成领域，图像数据来源的道德影响已经引发了广泛的讨论。在本研究中，我们只使用 Shutterstock 上的经过授权的图像。因此，我们可以避免与图像所有权和归属相关的担忧，同时不会牺牲性能。」

在预训练之后，CM3leon 模型经过一阶段有监督微调（SFT），Meta 的研究人员声称这种方法产生了高度优化的结果，无论是资源利用还是图像质量。SFT 是 OpenAI 用于训练 ChatGPT 的一种方法。Meta 在研究论文中指出，SFT 用于训练模型理解复杂提示，在生成任务中非常有用。

论文中指出：「我们发现，指导调整显著提高了多模态模型在图像标题生成、视觉问答、基于文本的编辑和条件图像生成等各种任务中的性能。」

通过查看 Meta 在关于 CM3leon 的博客文章中分享的生成图像样本集，结果令人印象深刻，清楚地显示了模型理解复杂的多阶段提示，从而生成了分辨率极高的图像。

目前，CM3leon 仍然是一个研究项目，尚不清楚 Meta 是否会在其平台的一个服务中公开提供这项技术。鉴于它的强大性能和更高的生成效率，CM3leon 及其生成式人工智能方法有可能超越研究阶段最终得到应用。

Meta推出基于token的全新AI 图像生成模型CM3leon更高效先进

0000

评论列表

共(0)条

相关推荐

站长资讯
OpenAI 首次公开收购初创公司 Global Illumination：致力于核心产品 ChatGPT
站长之家(ChinaZ.com)8月17日消息:OpenAI是广受欢迎的人工智能聊天机器人ChatGPT背后的人工智能公司。近日，OpenAI宣布收购了GlobalIllumination，这是一家位于纽约的初创公司，利用人工智能技术开发创意工具、基础设施和数字体验。这是OpenAI成立大约七年历史以来首次公开收购，具体交易条款未披露。
站长网2023-08-17 09:18:12
0001
开店成本过千万，遍布20省份，线下拼多多崛起？
“万客来是什么?没听说过。”当你和身边的大部分人聊起这家线下服装超市时，很多人会给出这样的回答。作为一家成立20多年的公司，万客来甚至没有自己的官方网站，但最近一年却在北京、长沙、济南、沈阳、重庆、武汉、合肥等超一线城市/省会城市到处开店，现在门店已经遍布全国20个省份。
站长网站长资讯2025-01-27 11:03:11
0000
站长资讯
OpenAI高管称AI将在10年内能胜任任何工作
🔍划重点:未来10年内，OpenAI高管预测人工智能将能够胜任人类的各种工作，标志着“通用人工智能”时代的到来。高管强调在AI的发展过程中需要谨慎对待潜在的风险，并确保监管和社会基础设施跟得上技术的步伐。讨论AI如何改变工作本质，提出可能增加不平等性，但也有望提高生产力和创造力，同时也将引发工作领域的大规模变革。
站长网2023-10-25 00:06:17
0000
小米现金储备1516亿雷军称小米交出史上业绩
昨日，小米集团宣布了2024年第三季度的财务报告，其中收入达到925亿元人民币，利润为63亿元，创下公司历史上最佳季度业绩。在过去的三个季度中，小米的收入同比增长率分别为27.0%、32.0%和30.5%，显示出公司强劲的增长势头。在现金流方面，小米目前持有1516亿元人民币，同时在研发领域的投入超过60亿元，同比增长近20%。研发团队规模也达到了20436人，显示公司对创新和技术发展的重视。
站长网站长资讯2024-11-21 07:28:13
0000
突发！刚刚，OpenAI裂变成了两块：一块营利，一块非营利
鱼上了岸，就不再是鱼?本周五晚间，OpenAI突然宣布了公司重组的消息，不仅让马斯克，也让我们有些措手不及。根据OpenAI的最新声明，新一轮组织结构调整是围绕营利与非营利的矛盾展开的。
站长网站长资讯2024-12-28 11:10:33
0000