腾讯混元文生图大模型宣布开源:首个中文原生DiT架构
站长网2024-05-14 15:43:450阅
今日,腾讯旗下引人注目的混元文生图大模型(混元DiT)宣布全面开源,这一重要举措标志着人工智能领域的又一里程碑。该模型已在Hugging Face和Github平台上发布,包含完整的模型权重、推理代码和算法,面向全球的企业与个人开发者免费开放商用。
腾讯混元文生图大模型的负责人卢清林表示,混元DiT的开源具有双重价值。首先,作为业内首个中文原生DiT架构,它填补了开源社区的空白,为中文领域的多模态视觉生成提供了强有力的支持。其次,混元DiT的开源是全面开放的,与现网版本完全一致,保证了开发者和用户能够获取到最先进、最实用的技术。
此次开源的混元DiT采用了与Sora同样的关键技术DiT架构,不仅支持256字中文理解,还能够作为视频等多模态视觉生成的基础。为了实现这一功能,腾讯团队精心设计了Transformer结构、文本编码器和位置编码,并构建了完整的数据管道,用于持续更新和评估数据,为模型的优化迭代提供了有力支持。
值得一提的是,混元DiT还通过训练多模态大语言模型来优化图像的文本描述,实现了细粒度的文本理解。这使得用户能够与之进行多轮对话,根据上下文生成并完善图像,为创意设计和内容创作提供了无限可能。
腾讯混元文生图大模型的全面开源,无疑将为全球的开发者和用户带来更为广阔的创新空间和应用前景。我们期待这一技术的进一步发展和应用,为人工智能领域带来更多的惊喜和突破。
项目地址:https://github.com/Tencent/HunyuanDiT
0000
评论列表
共(0)条相关推荐
只需0.5秒!MobileDiffusion:在手机设备上就能实现快速文本生成图像
**划重点:**1.🚀MobileDiffusion是一种专为移动设备设计的高效潜在扩散模型,可在半秒内生成高质量512x512图像。2.🧠通过优化模型架构,包括DiffusionUNet和图像解码器,MobileDiffusion展现了在计算效率上的出色表现。3.🌐该技术有望在移动设备上推动快速图像生成体验,拓展了生成模型在提高用户体验和应对隐私问题方面的潜在应用。站长网2024-02-01 10:19:000000免费使用,媲美Midjourney!微软在Bing Chat等提供—DALL-E 3
微软在官网宣布,将OpenAI最新模型DALL-E3集成在BingChat和BingImageCreate中,并免费提供给用户使用。据悉,DALL-E3是一款类Midjourney产品,通过文本就能生成二次元、3D、朋克、涂鸦、素描、黑白、极简、印象派、位面像素等几十种类型图片。例如,生成一个东方巨龙云雾缭绕冲上云霄,很快就能获得多张精美图片。站长网2023-10-08 08:59:400005SK 海力士和三星对 HBM 领先地位的竞争随着人工智能的蓬勃发展而升级
站长之家(ChinaZ.com)9月4日消息:在第二季度,长期处于落后地位的SK海力士(DRAM厂商)凭借高价值和高性能的内存HBM产品(由持续热门的生成型AI带动)销售火爆,使其与全球内存领导者三星电子的市场份额差距缩小至6.3个百分点,自2009年以来最小的差距。站长网2023-09-04 10:07:480000港大开源OpenGraph:攻克图基础模型难题,实现多领域通用图模型
要点:1.港大发布OpenGraph,首次攻克图基础模型的三大难题,实现零样本学习适配多种下游任务。2.OpenGraph通过统一图Tokenizer、可扩展的图Transformer和大语言模型知识蒸馏三部分构建通用图模型。3.实验验证显示OpenGraph在跨数据集预测和图Tokenizer设计方面的优越性,以及基于LLM的知识蒸馏方法的有效性。站长网2024-03-15 09:40:100000AI神器腾讯元宝APP上线 基于腾讯混元大模型开发打造
站长之家(ChinaZ.com)5月30日消息:今日,基于腾讯混元大模型开发的AI产品——“腾讯元宝”正式上线。这款App与先前的混元小程序版本相比,更加聚焦于AI技术的深度应用,为用户提供了包括AI搜索、AI总结、AI写作在内的核心功能,展现了其全面的智能服务能力。站长网2024-05-30 21:23:410000