Meta发布类GPT-4o多模态模型Chameleon
Meta最近发布了一个名为Chameleon的多模态模型,它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族,能够理解并生成任意顺序的图像和文本。它通过一个统一的Transformer架构,使用文本、图像和代码混合模态完成训练,并且对图像进行分词化,生成交错的文本和图像序列。
Chameleon模型的创新之处在于其早期融合方法,所有处理流程从一开始就映射到一个共同的表示空间,让模型能够无缝处理文本和图像。它在各种任务上展示了广泛的能力,包括视觉问答、图像标注、文本生成、图像生成和长形式混合模态生成。在图像标注任务上,Chameleon达到了最先进的性能,并且在文本任务上超越了Llama-2,与Mixtral8x7B和Gemini-Pro等模型竞争。

论文地址:https://arxiv.org/pdf/2405.09818
Chameleon模型在技术上面临了重大挑战,Meta的研究团队引入了一系列架构创新和训练技术。例如,他们开发了新的图像分词器,基于8192大小的codebook,将512×512的图像编码为1024个离散的token。此外,Chameleon使用了sentencepiece开源库训练的BPE分词器。
在预训练阶段,Chameleon使用了混合模态数据,包括纯文本、文本-图像对以及文本和图像交错的多模态文档。预训练分为两个阶段,第一阶段无监督学习,第二阶段混合更高质量的数据。
Chameleon模型在基准评估中全面超越了Llama2,在常识推理、阅读理解、数学问题和世界知识领域都取得了显著的效果。在人工评估和安全测试中,Chameleon-34B的表现也远远超过了Gemini Pro和GPT-4V。
尽管Chameleon缺少GPT-4o中的语音能力,但Meta的产品管理总监表示,他们非常自豪能够支持这个团队,并希望让GPT-4o更接近开源社区。这可能意味着不久的将来,我们可能会得到一个开源版的GPT-4o。
Chameleon模型的发布,展示了Meta在多模态模型领域的重大进展,它不仅推动了多模态模型的发展,也为未来的研究和应用提供了新的可能性。
Sam Altman 谈 OpenAI、未来的风险与回报以及通用人工智能的潜力
作为TIME杂志2023年度「年度CEO」,OpenAI首席执行官SamAltman在当地时间周二TIME杂志的「AYearinTIME」活动中与TIME主编SamJacobs进行了广泛对话,讨论了人工智能(AI)对社会的影响及其未来潜力。0002中端神机!Redmi Note系列全球销量突破3.38亿台
快科技9月21日消息,小米集团卢伟冰表示,RedmiNote系列全球销量突破3.38亿台,成为中端爆款。回顾RedmiNote系列进化史,Redmi将很多旗舰级的体验普及到了Note系列机型上。站长网2023-09-21 20:55:310000三星电子举办 2023 年三星人工智能论坛,展示人工智能和计算机工程的关键进展
三星电子日前在韩国京畿道水原会展中心开幕了三星AI论坛,分享人工智能(AI)与计算机工程(CE)领域的最新研究成果,这对提升公司的下一代半导体技术具有重要贡献。站长网2023-11-08 11:44:290000LLaVA-1.6来了!赶超Gemini Pro 提升推理性能
要点:1、LLaVA-1.6提升了推理、OCR能力,支持更多场景和广泛用户。2、LLaVA-1.6在多项基准测试中超越了GeminiPro,并优于Qwen-VL-Plus。3、LLaVA-1.6展现出强大的零样本中文能力,取得了SOTA性能。站长网2024-02-01 14:31:010000vivo宣布暂停在德国销售产品,为已售产品提供服务
vivo在其德国官网宣布,暂停销售旗下产品,并已下架所有产品介绍,仅保留主页和支持页面。此前,德国曼海姆地方法院在专利案中裁定诺基亚胜诉,涉及到诺基亚4G标准必要专利(SEP)。vivo已表示将为已售产品提供相关服务,同时秉持“FRAND”原则与诺基亚协商解决相关问题,并对一审判决提出上诉。站长网2023-06-07 20:02:430001