Prismer: 一个专家集合的视觉语言模型 支持多节点训练
prismer 是一种视觉语言模型的实现,旨在提供一个具有专家集合的系统。该系统基于 PyTorch1.13开发,使用了 Huggingface 的加速工具包,支持多节点多 GPU 的训练。它可以进行图像描述和视觉问答等任务,并且在预训练和微调方面都取得了良好的性能。通过继承来自公开的、预先训练的领域专家的大部分网络权重并在训练期间冻结它们,Prismer 只需要训练几个组件。
项目地址:https://github.com/nvlabs/prismer
核心功能:
1. 提供了 Prismer 和 PrismerZ 两种模型的预训练和微调检查点,可以进行零 - shot 图像描述和视觉问答任务。
2. 支持使用多个专家模型进行集合,提高模型的表现。
3. 提供了用于生成专家标签的工具,以构建多标签数据集。
4. 支持使用自定义数据集进行训练和微调,并提供了训练和评估脚本。
5. 提供了一个简洁的示例,可在单个 GPU 上进行图像描述任务。
优点:
Prismer 模型有几个优点,但最值得注意的优点之一是它在训练时非常有效地使用数据。Prismer 构建在预训练的纯视觉和纯语言骨干模型之上,以实现这一目标,并大幅减少获得与其他最先进的视觉语言模型同等性能所需的 GPU 时间。人们可以使用这些预先训练的参数来使用大量可用的网络规模知识。
研究人员还为视觉编码器开发了多模态信号输入。创建的多模态辅助知识可以更好地捕获有关输入图像的语义和信息。Prismer 的架构经过优化,可以最大限度地利用经过培训的专家,并且可训练的参数很少。
研究人员在 Prismer 中纳入了两种经过预培训的专家:
主干网专家负责将文本和图片翻译成有意义的标记序列的预训练模型分别称为“仅视觉”和“仅语言”模型。
根据训练中使用的数据,话语模型的主持人可能会以各种方式标记任务。
特性
知识渊博的人越多,结果就越好。随着 Prismer 模态专家数量的增加,其性能也随之提高。
专业技能越强,结果越高 研究人员用均匀分布中的随机噪声替换部分预测深度标签,以创建损坏的深度专家,并评估专家质量对 Prismer 性能的影响。
抵制无益的意见 研究结果进一步表明,当噪声预测专家加入时,Prismer 的性能是稳定的。
京东方公开脑机接口专利 用以恢复残肢患者生活自理、工作交流能力
企查查APP显示,近日,北京京东方技术开发有限公司、京东方科技集团股份有限公司公开“控制方法、装置、训练方法、电子设备及存储介质”专利。摘要信息显示,控制方法包括:获取用户控制目标对象的脑电信号,并利用神经网络模型对脑电信号进行处理得到控制信息。其中,神经网络模型由脑电训练信号和肌电训练信号训练得到,以及根据控制信息对目标对象进行控制。站长网2023-08-14 11:40:220000Hugging Face 发布医疗任务评估基准Open Medical-LLM
划重点:⭐️HuggingFace发布了一个新的医疗任务评估基准,旨在测试生成式人工智能模型在健康相关任务上的表现。⭐️OpenMedical-LLM基准由现有测试集拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。站长网2024-04-19 11:44:570000谁才是大模型“四小龙”?
这两年热闹的大模型创业潮,被业内称为“AI2.0”。与之对应的“AI1.0”,指的是2015年左右开始的那一波AI创业潮,当时诞生了商汤、旷视、云从、依图等明星创业公司,它们以CV技术(计算机视觉)为主导,大量融资,风头无两。这四家公司,是公认的“AI四小龙”。0000斯坦福天才少女一年缔造5亿美元独角兽!Pika再获8000万美元融资,金牌团队阵容首度曝光
【新智元导读】斯坦福天才少女郭文景的Pika,在成立一年之际再获一笔8000万美元融资。团队成员也首次曝光,6位IOI金牌得主,包揽9块金牌。凭借超神的速度,这家公司的产品进化路线图震惊了一众硅谷大佬。AI视频将走向何方?Pika定会拿出新的惊喜。斯坦福天才少女的这家公司,依然在继续它的传奇。成立一年之际,Pika迎来最好的生日礼物——新一轮约8000万美元的融资。站长网2024-06-08 17:02:400000