Prismer: 一个专家集合的视觉语言模型 支持多节点训练
prismer 是一种视觉语言模型的实现,旨在提供一个具有专家集合的系统。该系统基于 PyTorch1.13开发,使用了 Huggingface 的加速工具包,支持多节点多 GPU 的训练。它可以进行图像描述和视觉问答等任务,并且在预训练和微调方面都取得了良好的性能。通过继承来自公开的、预先训练的领域专家的大部分网络权重并在训练期间冻结它们,Prismer 只需要训练几个组件。
项目地址:https://github.com/nvlabs/prismer
核心功能:
1. 提供了 Prismer 和 PrismerZ 两种模型的预训练和微调检查点,可以进行零 - shot 图像描述和视觉问答任务。
2. 支持使用多个专家模型进行集合,提高模型的表现。
3. 提供了用于生成专家标签的工具,以构建多标签数据集。
4. 支持使用自定义数据集进行训练和微调,并提供了训练和评估脚本。
5. 提供了一个简洁的示例,可在单个 GPU 上进行图像描述任务。
优点:
Prismer 模型有几个优点,但最值得注意的优点之一是它在训练时非常有效地使用数据。Prismer 构建在预训练的纯视觉和纯语言骨干模型之上,以实现这一目标,并大幅减少获得与其他最先进的视觉语言模型同等性能所需的 GPU 时间。人们可以使用这些预先训练的参数来使用大量可用的网络规模知识。
研究人员还为视觉编码器开发了多模态信号输入。创建的多模态辅助知识可以更好地捕获有关输入图像的语义和信息。Prismer 的架构经过优化,可以最大限度地利用经过培训的专家,并且可训练的参数很少。
研究人员在 Prismer 中纳入了两种经过预培训的专家:
主干网专家负责将文本和图片翻译成有意义的标记序列的预训练模型分别称为“仅视觉”和“仅语言”模型。
根据训练中使用的数据,话语模型的主持人可能会以各种方式标记任务。
特性
知识渊博的人越多,结果就越好。随着 Prismer 模态专家数量的增加,其性能也随之提高。
专业技能越强,结果越高 研究人员用均匀分布中的随机噪声替换部分预测深度标签,以创建损坏的深度专家,并评估专家质量对 Prismer 性能的影响。
抵制无益的意见 研究结果进一步表明,当噪声预测专家加入时,Prismer 的性能是稳定的。
Suno推出生成式音频AI基础模型 输入文本即可生成30秒音乐
最近,科技公司Suno推出了一款生成式音频AI基础模型,用户只需简单的文本输入,就可以生成两段约30秒带有歌词的音乐。这个玩法跟之前的Midjourney很相似,在Suno的Discord频道里输入“/chirp”命令,再加上提示词,告诉它你想要的音乐风格和歌词即可。官方建议输入的内容不要超过4-8行。体验地址:https://discord.com/invite/QRrnYufqZV站长网2023-08-10 16:52:450001华为nova 12系列预计12月上市 搭载第二代昆仑玻璃微曲屏
据知名数码博主@定焦数码的最新报道,华为全新nova12系列手机的设计细节已经进一步揭露。该系列包括华为nova12和华为nova12Pro两个版本,预计将于12月份正式上市。站长网2023-10-08 14:02:170000董宇辉称俞敏洪是自己的“王多鱼” 负责帮自己实现梦想
最近,俞敏洪和董宇辉一同攀登了恒山。在恒山的千刃绝壁上,俞敏洪给董宇辉提供了职业规划和指引,让董宇辉感觉到俞敏洪就像自己的“王多鱼”。董宇辉被视为业内顶尖人才,他振臂一呼,是让俞敏洪咸鱼翻身?但他的事业成功之路其实一直都是光彩照人!在当今这个充满机遇和挑战的时代,每个人都需要有自己的“王多鱼”,他可以给你提供帮助、启示和指引。对于董宇辉来说,他的“王多鱼”就是新东方教育集团的创始人俞敏洪。站长网2023-05-23 10:26:230001华为余承东:行政级豪华轿车享界S9今年7-8月发布
今日,华为常务董事、终端BGCEO、智能汽车解决方案BU董事长余承东在问界新M5发布会上发表了精彩演讲,不仅带来了全新问界新M5车型,还透露了与北汽新能源合作打造的享界S9豪华旗舰轿车的消息。据悉,享界S9将在北京车展鸿蒙智行展台首次亮相,预计在今年七八月份正式发布。作为华为与北汽合作的重要成果,享界汽车官方微博已正式上线并获得官方组织认证,尽管目前尚未发布任何内容,但已引发了广泛关注。站长网2024-04-23 16:37:070000月之暗面Kimi智能助手升级:联网回复更快 搜索支持引用溯源
月之暗面旗下Kimi智能助手基础模型更新至moonshot-v1-20240416版本。Kimi在本次更新中推出了几项新功能和改进:1.模型能力提升:Kimi的基础模型更新至moonshot-v1-20240416版本,加强了联网模式下的首字返回速度,提升了逻辑推理能力,特别是数学和编程方面的能力,同时也改进了翻译准确性和其他体验优化。站长网2024-04-19 01:36:080001