创新型生成模型CityDreamer:一键生成无边界的3D城市
站长之家(ChinaZ.com) 10月15日 消息:近年来,关于3D 自然场景生成的研究已经很多,但对于3D 城市生成的研究相对较少。这是因为在城市环境中,人们对结构扭曲更加敏感,而生成3D 城市比生成3D 自然场景更为复杂。最近 ,南洋理工大学S-Lab的研究人员近日提出了一种名为CityDreamer的框架,专注于生成无边界的3D城市,这标志着3D城市生成领域的一项重大突破。
据了解,CityDreamer通过创新性地分为城市背景和建筑两个模块来解决这一难题,采用了鸟瞰视图(Bird's Eye View, BEV)作为场景表示。这两个模块都通过对抗训练采用体积渲染器(Volumetric Renderer)生成高度逼真的图像。CityDreamer 采用了一种创新的生成模型,它将建筑物的生成与其他背景对象(如道路、绿地和水域)分开处理,使用不同的模块进行生成。
数据集方面,为了提高生成的3D 城市的真实感,研究团队构建了两个数据集,即 OSM 数据集和 Google Earth 数据集,其中包含大量现实世界城市图像数据。
一个关键的挑战是,在城市中,建筑的外观多种多样,但它们通常被分配相同的类别。这导致了建筑外观的质量下降。为了克服这一问题,CityDreamer引入了生成哈希网格和周期性位置编码。哈希网格用于保持自然性和维护3D一致性,而周期性位置编码则用于处理多样性的建筑立面,这是一种简单而有效的方法。
CityDreamer的生成过程分为四个步骤:无边界城市布局生成、城市背景生成、建筑实例生成和图像融合。在无边界城市布局生成中,CityDreamer采用了无边界布局生成器(ULG)来生成可扩展的语义地图和高度场。城市背景生成模块使用哈希网格来保持自然性和维护3D一致性,通过基于体积渲染的渲染网络将三维空间特征映射到二维图像。建筑实例生成则通过基于体积渲染的渲染网络完成,观察到建筑立面和屋顶有显著的差异,因此它们分配了不同的类别标签。
实验结果显示,CityDreamer的效果明显优于其他同类方法,包括PersistentNature、SceneDreamer和InfiniCity。此外,CityDreamer还展示了出色的鲁棒性,从不同角度观察生成结果都非常令人满意。
这一创新的成果标志着3D城市生成技术的显著进展,为未来的虚拟城市和元宇宙的发展提供了有力支持。这一技术的应用前景非常广阔,将在游戏、城市规划、虚拟现实等领域发挥关键作用。
论文地址:https://arxiv.org/abs/2009.00610
项目地址:https://haozhexie.com/project/city-dreamer
Suno新功能被Udio抢跑 上传任意音频Udio自动帮延长创作
还记得之前Suno宣布要推出的新功能吗?只要上传任意一段声音,Suno就会自动捕捉并与之“和弦”,将这些声音转换为音乐作品。当时官方发布的宣传视频还让不少人惊艳了一把。然而,Suno动作还是慢了一拍,被友商抢跑了。刚刚,Udio发布了一系列更新,用户只需上传任意音频片段,Udio就会帮你解析旋律和和弦,分分钟给你创作出一首美妙的音乐。案例视频来自WilliamLamkin具体更新如下:站长网2024-06-06 17:21:000000谷歌 DeepMind 推出 AlphaGeometry:奥林匹克级几何AI系统
谷歌旗下的DeepMind研究团队最近推出了名为AlphaGeometry的人工智能系统,该系统在解决几何奥林匹克问题方面表现出色,几乎可与人类金牌得主相媲美。这一成就代表着在大学预科数学困难领域中复杂自动推理能力的显著进步。站长网2024-01-22 15:32:120000「代理人战争」!微软、OpenAI 、谷歌、Meta用AI Agent疯狂搞钱
【新智元导读】为了搞钱,微软、OpenAI、谷歌和Meta纷纷瞄准Agent这片蓝海,各顶尖高校也紧随其后。Agent才是商业学术两开花的未来!大模型发展至今早已火成了一个「概念」。不管是学术界还是工业界,都要套上一层LLM的皮,方可彰显自己位于浪潮之巅。但是,搞AI的公司赚到钱了吗?或者说应该怎样赚钱?站长网2024-05-06 11:04:140000Gemini上线首日:用户褒贬不一,演示被质疑「造假」,谷歌承认了
又不求融资,怎么也给demo加美颜?「谷歌,这就有点尴尬了。」没有想到,Gemini上线头一天,热门评论会是这个样子。本周三,谷歌的Gemini让生成式AI进入了原生多模态时代。人们第一时间涌入新模型加持的Bard想要试试AI的能力,结果给出的评价褒贬不一。其中最值得注意的是有人指出,Gemini在发布时,谷歌给出的一系列Demo中最令人眼花缭乱的部分是伪造的。站长网2023-12-08 18:51:340001Meta 的 Voicebox 生成式 AI 可以让任何人都能说多门外语
ChatGPT和Google的Bard等生成式人工智能使用自然语言处理和机器学习生成特定文本以响应提问。Meta的新生成人工智能Voicebox做事有点不同——生成任意音频。站长网2023-06-20 16:11:230000