首页站长资讯字节复旦团队提出meta prompts 扩散模型图像理解力刷新SOTA

字节复旦团队提出meta prompts 扩散模型图像理解力刷新SOTA

站长网2024-01-16 17:16:250阅

过去一年扩散模型风头正劲，彻底改变了文生图领域!那么，扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案。扩散模型在生成高清晰度图像方面显示出了卓越的能力，这一成就得益于其在大规模图像-文本对上的预训练。团队提出了一种利用扩散模型处理视觉感知任务的方案，通过引入可学习的元提示到预训练的扩散模型中，以提取适合特定感知任务的特征。

项目地址:https://github.com/fudan-zvg/meta-prompts

视觉感知任务的多样性超出了文本驱动方法的范畴，因此技术团队提出了一种内部的可学习元提示，称为meta prompts，这些meta prompts被集成到扩散模型中，以适应感知任务。Meta prompts可以根据目标任务和数据集进行端到端的训练，从而为去噪UNet建立特别定制的适应条件。这些meta prompts包含丰富的、适应于特定任务的语义信息，有效展示了对类别的识别能力、对深度的感知能力以及关键点的感知。

扩散模型通过其固有的设计，在去噪UNet中生成多尺度特征，但视觉感知任务通常需要理解既包括低级细节的又包括高级语义解释的内容。为了解决这一问题，技术团队引入了meta prompts作为特征重组的过滤器，将UNet的多尺度特征与meta prompts的任务适应性结合起来，并将经过meta prompts过滤的特征输入到特定任务的解码器中，从而提高模型在视觉识别任务中的性能。

技术团队还为视觉感知任务设计了一个简单的recurrent refinement过程，通过将UNet的输出特征循环输入到UNet中，并引入可学习的独特的timestep embeddings，以调制UNet的参数，从而优化特征提取过程，增强模型在视觉感知任务中的性能。实验结果显示，该方法在多个感知任务数据集上都取得了最优。

该研究提出的方法和技术有广泛的应用前景，可以在自动驾驶、医学影像分析、机器人视觉系统等领域中提升视觉感知任务的性能。此外，该方法还可以在艺术创作、虚拟现实、增强现实等领域中用于提高图像和视频的质量和互动性。随着技术的进步，这些方法可能会进一步完善。

字节复旦团队提出metaprompts扩散模型图像理解力刷新SOTA

0000

评论列表

共(0)条

相关推荐

站长资讯
创业黑马：拟定增募资不超5.07亿元用于科创大模型建设
创业黑马公告称，拟向特定对象发行A股股票拟募集资金总额不超过5.07亿元，将用于科创大模型建设项目及智能中台建设项目。创业黑马表示，本次所涉募投项目不属于通用大模型，且公司并不具备通用大模型的研发与建设能力，本次项目建设及实施后也不具备相关能力。今年5月，创业黑马宣布与360集团达成战略合作，正式推出国内首款专用于科创服务的垂直行业大模型——黑马天启科创大模型。
站长网2023-07-21 22:57:58
0000
两辆无人驾驶出租车窄路互不相让网友：看谁先没电
快科技6月27日消息，据麻辣车评消息，近日，两辆无人自动驾驶汽车在窄路中互不让路的视频，引起网友热议。视频中，两辆车均为百度旗下萝卜快跑自动驾驶测试车辆，在一窄路中两辆车对向行驶到了一块。不过，两辆车均没有避让，都停在了道路中央，互相僵持不动，其中一辆后面还跟着其它社会车辆，在不断鸣笛催促。
站长网站长资讯2024-06-28 17:21:45
0000
站长资讯
OpenAI 的 ChatGPT app 在推出的短短 6 天内下载量超过 50 万次
根据应用程序情报提供商data.ai的新分析显示，尽管OpenAI的ChatGPT应用在今天才扩展到11个市场，但其表现非常出色。根据数据，该应用在发布后的前六天就已经突破了50万次下载，这使其成为今年和去年发布的最成功的新应用之一。
站长网2023-05-26 10:56:31
0000
转嫁成本给用户！苹果AI可能要收费：每月超140元
快科技8月8日消息，据媒体报道，苹果正考虑为其即将推出人工智能系统AppleIntelligence向用户收费，预计每月价格高达20美元（约合143元人民币）。CounterpointResearch的合伙人NeilShah透露，苹果计划在年内晚些时候正式推出AppleIntelligence系统。
站长网站长资讯2024-08-10 03:51:18
0000
站长资讯
日本 METI 将建造新型超级计算机以帮助国内人工智能发展
据日经新闻获悉，日本经济产业省(METI)将通过其附属实验室推出新型尖端超级计算机，以支持日本生成人工智能(AI)的发展。日本产业技术综合研究所(AIST)最早将于2024年开发出一台计算能力约为现有机器2.5倍的超级计算机。在经济产业省的监督下，该研究机构将通过云服务向国内开发生成式人工智能的公司提供该计算机。
站长网2023-07-25 16:18:39
0003