英伟达推出免训练,可生成连贯图片的文生图模型
目前,多数文生图模型皆使用的是随机采样模式,使得每次生成的图像效果皆不同,在生成连贯的图像方面非常差。
例如,想通过AI生成一套图像连环画,即便使用同类的提示词也很难实现。虽然DALL·E3和Midjourney可以对图像实现连贯的生成控制,但这两个产品都是闭源的。
因此,英伟达和特拉维夫大学的研究人员开发了免训练一致性连贯文生图模型——ConsiStory。(即将开源)
论文地址:https://arxiv.org/abs/2402.03286

目前,文生图模型在生成内容一致性方面比较差的原因主要有两个:1)无法识别和定位图像中的共同主体,文生图像模型没有内置的对象检测或分割模块,很难自动识别不同图像中的相同主体;
2)无法在不同图像中保持主体的视觉一致性,即使定位到主体,也很难使不同步骤中独立生成的主体在细节上保持高度相似。
主流解决这两种难题的方法是,基于个性化和编码器的优化方法。但这两类方法都需要额外的训练流程,例如,针对特定主体微调模型参数,或使用目标图像训练编码器作为条件。
即便使用了这种优化方法,训练周期较长难以扩展到多个主体,且容易与原始模型分布偏离。
而ConsiStory提出了一种全新的方法,通过共享和调整模型内部表示,可以在无需任何训练或调优的情况下实现主体的一致性。
值得一提的是,ConsiStory可以作为一种插件,帮助其他扩散模型提升文生图的一致性和连贯性。
主体驱动自注意力(SDSA)
SDSA是ConsiStory的核心模块之一,可以在生成的图像批次中共享主体相关的视觉信息,使不同图像中的主体保持一致的外观。
SDSA主要扩大了扩散模型中自注意力层,允许一个图像中的“提示词”不仅可以关注自己图像的输出结果,还可以关注批次中其他图像的主体区域的输出结果。
这样主体的视觉特征就可以在整个批次中共享,不同图像中的主体互相"对齐"。

为了防止背景区域之间的敏感信息泄露,该模块使用主体分割蒙版来进行遮蔽——每个图像只能关注批次中其他图像主体区域的输出结果。

主体蒙版是通过扩散模型本身的交叉注意力特征自动提取。
特征注入
为了进一步增强主体不同图像之间细节层面的一致性,“特征注入”基于扩散特征空间建立的密集对应图,可以在图像之间共享自注意力输出特征。
同时图像中一些相似的优化地方之间共享自注意力特征,这可以有效确保主体相关的纹理、颜色等细节特征在整个批次中互相"对齐"。

特征注入也使用主体蒙版进行遮蔽,只在主体区域执行特征共享。同时还设置相似度阈值,只在足够相似的优化之间执行。
锚图像和可重用主体
ConsiStory中的锚图像提供了主题信息的参考功能,主要用于引导图像生成过程,确保生成的图像在主题上保持一致。
锚图像可以是用户提供的图像,也可以是从其他来源获取的相关图像。在生成过程中,模型会参考锚图像的特征和结构,并尽可能地生成与一致性的图像。

可重用主体是通过共享预训练模型的内部激活,来实现主题一致性的方法。在图像生成过程中,模型会利用预训练模型的内部特征表示来对生成的图像进行对齐,而无需进一步对齐外部来源的图像。

也就是说生成的图像可以相互关注、共享特征,这使得ConsiStory实现了0训练成本,避免了传统方法中需要针对每个主题进行训练的难题。
看齐Ultra!小米14 Pro曝光:长焦影像大升级
快科技5月15日消息,博主数码闲聊站暗示,小米14Pro长焦影像有大幅升级,配备了5000万像素潜望式长焦镜头。通常情况下,潜望式长焦镜头仅限Ultra版本,像小米12SUltra、小米13Ultra等,这次小米将潜望长焦给到了Pro版本,长焦表现有了大幅进步。其工作原理借鉴了潜望镜,它改变了光的传播线路,光线先进入反光镜并发生折叠,然后再进入相机的传感器中。站长网2023-05-15 15:03:270000荣耀CEO赵明:正探索把AI大模型引入端侧
在世界移动通信大会(MWC)上海展期间,荣耀CEO赵明在演讲中表示,消费电子行业是长周期行业,影响最大的因子从来不是经济周期,而是创新周期。他还提到,“端”侧的个人大模型将是未来的探索方向,荣耀将率先尝试把AI大模型引入端侧。站长网2023-06-29 19:26:310000铁路12306:不存在纵容“买长乘短”的情况
快科技4月22日,据央视新闻报道,铁路12306相关负责人接受采访时表示,铁路12306系统根据旅客提交的购票需求和余票情况来配售火车票,不存在纵容买长乘短”的情况。铁路车票分配的基本原则是统筹考虑便利沿线旅客群众购票出行和充分用好铁路运力资源,兼顾长短途出行需求。0001库克证实苹果正在开发,类ChatGPT产品
9月29日,Appleinsider消息,苹果CEO蒂姆·库克在接受《伦敦标准晚报》采访时回应,正在加大对人工智能、机器学习人才的招聘,用于开发生成式AI产品。库克表示,AI功能几乎遍布苹果的所有产品,例如,AppleWatch的跌倒检测、碰撞检测、心房颤动检测、心电图等,这些都是最典型的应用案例。目前,苹果正在研究类ChatGPT产品,以增强产品功能和用户体验。站长网2023-09-30 10:11:590000被AI大牛押注的智能体,国内发展得怎样了?
前段时间,前特斯拉总监、OpenAI大牛Karpathy的一句话,引起了业内的关注。在7月初的一次开发者大会上,Karpathy声称:“我被自动驾驶分了心,AI智能体才是未来!”并表示将来会全力投入对智能体的研发工作中。其实,早在2016年,当Karpathy开始在OpenAI工作时,就已经锚定了智能体的方向,只是由于当时的研究方法还不成熟,所以Karpathy才转去做了自动驾驶。站长网2023-08-03 10:41:310000