DMP技术开源,可提升AI图像预测精度
站长网2023-12-07 14:52:130阅
要点:
通过利用预训练的文本到图像扩散模型作为先验,提出了Diffusion Models as Prior(DMP)管道,用于各种像素级语义预测任务。
通过在确定性预测任务和随机文本到图像模型之间重新构建扩散过程,通过一系列插值建立输入RGB图像和输出预测分布之间的确定性映射。
通过使用低秩适应来微调预训练模型,保持了泛化性能。在包括3D属性估计、语义分割和内在图像分解在内的五个任务上的广泛实验证明了DMP的有效性。
Diffusion Models as Prior (DMP)是一种新的方法,它在AI生成的图像中提高了语义预测的准确性。该创新性方法巧妙地将预先训练的文本到图像模型应用于各种任务,例如3D属性估计和语义分割,在有限的训练数据下表现优于现有技术。

项目地址:https://shinying.github.io/dmp/
为了克服确定性任务和随机文本到图像模型之间的不一致性,研究者重新构建了扩散过程,通过插值建立了输入图像和输出预测分布之间的确定性映射。为了保持泛化性能,采用了低秩适应来微调预训练模型。实验证明,DMP在包括3D属性估计、语义分割和内在图像分解在内的多个像素级语义预测任务上表现出色,即使在有限领域训练数据的情况下,也能在任意图像上产生准确的估计,超过了现有的先进算法。
通过对10,000张卧室图像的训练,作者评估了模型在多样场景和任意图像上的域外性能,特别在卧室图像的各种风格上进行了分割评估,DMP在处理其他预训练方案无法处理的图像上表现出忠实的估计能力。
总体而言,这项研究为像素级语义预测任务引入了一种创新的先验方法,为解决领域差异问题提供了新的思路。
0000
评论列表
共(0)条相关推荐
张朝阳称大模型国内炒得有点过热 搜狐目前没有做大模型
张朝阳在搜狐科技峰会上接受媒体采访时谈到了他对大模型的看法,表示“目前国内对于大模型的炒作有点过热”。他表示,搜狐目前并没有开始做大模型,仍在观望,相对来说还是比较谨慎的。但是,在整个GPT应用方面,搜狐已经开始逐渐将其渗透到产品中。站长网2023-05-19 09:06:220001CodeFuse微调框架MFTCoder升级v0.3.0版本 支持Mixtral等模型
MFTCoder是蚂蚁CodeFuse开源的一种多任务微调框架,可以在多个任务上同时进行微调。它通过结合多种损失函数解决了多任务学习中的挑战。MFTCoder具备高效训练特征,包括高效的数据Tokenization模式和支持PEFT微调,能提升微调训练速度并降低资源需求。MFTCoder在v0.3.0版本中进行了重磅升级。站长网2024-01-22 09:08:410002你有没深入想过,什么造成了GPT-4的输出很随机?
GoogleDeepmind可能早就意识到了这个问题。今年,大型语言模型(LLM)成为AI领域最受关注的焦点,OpenAI的ChatGPT和GPT-4更是爆火出圈。GPT-4在自然语言理解与生成、逻辑推理、代码生成等方面性能出色,令人惊艳。然而,人们逐渐发现GPT-4的生成结果具有较大的不确定性。对于用户输入的问题,GPT-4给出的回答往往是随机的。站长网2023-08-07 16:41:370004国际足联使用AI识别了300名骚扰世界杯球员用户 并通知执法部门
国际足联(FIFA)周日表示,一个利用人工智能追踪社交媒体滥用的项目,该项目主要针对在2022年世界杯期间在网上辱骂、歧视球员的行为,目前已经确定了300多人,他们的详细信息正被提交给执法部门。足球管理机构在一份报告中表示,这些人在Twitter、Instagram、脸书、TikTok和YouTube等平台上发表了“辱骂、歧视或威胁性的帖子(或)评论”。站长网2023-06-20 17:10:310000微软将 Bing AI 集成到 iOS 和 Android 版 SwiftKey 输入法
此前微软在SwiftKey输入法里已经加入了学习使用者语言风格等AI特性,现在微软更将其无处不在的BingAI聊天机器人集成到预测键盘应用程序中。随着BingAI的升级,微软iOS和Android上的SwiftKey用户在更新后,可以通过键盘上方的Bing按钮调出搜索、聊天和语气这三个选项。站长网2023-04-17 10:17:340001