Design2Code:提供设计图,让多模态LLM自动生成前端代码
划重点:
⭐️ 生成 AI 在近年来取得了快速进展,具有前所未有的多模态理解和代码生成能力。
⭐️ 研究对可视化设计转换为代码实现的任务进行了系统研究,提出了一套自动评估指标。
⭐️ GPT-4V 在任务中表现出色,生成的网页在视觉外观和内容方面有望取代原始参考网页。
近年来,生成 AI 在多模态理解和代码生成方面取得了显著进展,为前端开发带来了全新的范式。研究人员开展了对视觉设计转换为代码实现任务(称为 Design2Code)的系统研究。
Design2Code是一个微软的开源项目,目的是实现提供设计图,转换为前端代码,适用于前端开发者和设计师。
研究人员手动筛选了484个真实网页作为测试用例,并开发了一套自动评估指标,以评估当前多模态 LLMs 能够多大程度上生成直接渲染为给定参考网页的代码实现,以屏幕截图作为输入。
研究人员开发了一套多模态提示方法,并展示了它们在 GPT-4V 和 Gemini Vision Pro 上的有效性。他们还对开源的 Design2Code-18B 模型进行了微调,成功达到了 Gemini Pro Vision 的性能水平。
测试集示例
基准测试中的一些示例(用于评估目的;下面两行)与 Huggingface 创建的合成数据(用于训练目的;第一行)进行比较。基准测试包含具有不同复杂程度的各种现实世界网页。
人类评估和自动指标显示,GPT-4V 在这一任务中表现出色,标注者认为 GPT-4V 生成的网页在视觉外观和内容方面有望在49% 的情况下取代原始参考网页。令人惊讶的是,在64% 的情况下,标注者认为 GPT-4V 生成的网页甚至比原始参考网页更好。
基准性能:自动指标
对于自动评估,考虑高级视觉相似性(CLIP)和低级元素匹配(块匹配、文本、位置、颜色)。
模型对比
一些案例研究示例来比较不同的提示方法和不同的模型。
详细的细分指标表明,开源模型在从输入网页中召回视觉元素和生成正确布局设计方面大多落后,而在文本内容和着色方面则可以通过适当的微调得到显著改进。
项目入口:https://top.aibase.com/tool/design2code
ChatGPT 在意大利恢复上线 但 OpenAI 在欧盟的监管麻烦才刚刚开始
OpenAI此前成功安抚了意大利数据机构,解除了该国对ChatGPT的禁令,但其在与欧洲监管机构的斗争仍远未结束。站长网2023-05-08 11:19:090001零一万物发布自研全导航图向量数据库「笛卡尔(Descartes)」
3月11日,零一万物发布了基于全导航图的新型向量数据库「笛卡尔(Descartes)」,在权威榜单ANN-Benchmarks上获得了6项数据集评测的第一名。向量数据库是AI时代的信息检索技术之一,对于大模型应用开发者非常重要。笛卡尔向量数据库将用于即将推出的AI产品中,并将提供给开发者使用。站长网2024-03-12 08:52:590000Meta推全新视频生成模型FlowVid 保持视频高度一致性
要点:Meta清华校友联手提出的视频生成模型FlowVid,通过V2V模型在1.5分钟内生成一段4秒的视频,标志着AI视频生成领域的新进展。FlowVid采用空间条件和源视频中的时间光流信息,实现了视频合成的高度一致性,通过对第一帧进行光流变换编码,使得视频帧之间保持时间连贯性。站长网2024-01-02 14:29:240000谷歌 Gboard 全力发展生成式 AI:加入人工智能校对和表情符号生成功能
人工智能是今年GoogleI/O开发者大会的关键词,谷歌展示了生成式语言模型如何改变其一些重要产品。看起来该公司正准备将同样的魔力添加到Gboard中,这几乎是最好的Android键盘应用程序。在应用程序中隐藏的标志可以激活一系列生成式机器学习功能,如高级拼写检查和表情符号生成。站长网2023-08-11 09:04:410002北京将发4000万元算力券 支持大模型企业
据可靠消息,北京市经济和信息化局党组书记、局长姜广智最近在接受媒体采访时宣布,北京将以场景为引领,以应用为导向,进一步开放典型场景,推动大规模模型产业化应用。为了促进人工智能与经济社会发展的深度融合,该局将每个季度都推出一批大模型应用成果,形成典型案例。站长网2023-07-12 17:37:070000