苹果大模型MM1入场:参数达到300亿 超半数作者是华人
要点:
苹果发布了多模态大型语言模型MM1,参数达到300亿,采用MoE架构,超半数作者为华人。
MM1在模型架构、预训练数据选择和训练方法上进行了详细探讨,并在多项基准测试中表现出竞争力。
MM1的预训练和监督微调结果显示,采用不同的数据和训练策略可以获得更好的性能,MoE模型进一步扩展了潜力。
苹果公司最新发布了一款名为MM1的大型多模态基础模型,拥有300亿参数,采用了MoE架构,并且超过一半的作者是华人。该模型在多模态领域具有重要意义,可能预示着苹果未来推出与此相关的产品。
今年以来,苹果明显加大了对生成式人工智能(GenAI)领域的投入,这一举措体现了苹果在GenAI领域取得重大进展的决心。据悉,苹果一部分转向GenAI的团队原本是从事造车项目的,而如今他们也开始投身于GenAI领域的研发工作。
论文地址:https://arxiv.org/pdf/2403.09611.pdf
MM1的发布引起了广泛关注。据论文介绍,该模型采用了MoE变体,并且在预训练指标和多项多模态基准测试上表现出了领先水平。研究者通过多项消融试验,探讨了模型架构、预训练数据选择以及训练程序等方面的重要性。他们发现,图像分辨率、视觉编码器损失和预训练数据在建模设计中都起着关键作用。
在预训练数据选择方面,研究者发现了几个重要经验:交错数据对提高少样本和纯文本性能有帮助,而字幕数据则对提高零样本性能具有重要作用。
此外,纯文本数据对于提高少样本和纯文本性能同样至关重要。通过合理混合图像和文本数据,可以获得最佳的多模态性能,并保留较强的文本性能。研究者还发现,人工合成数据有助于少样本学习。
最终,研究者确定了MM1的最终配方,包括图像编码器、视觉语言连接器和预训练数据的选择。他们还将LLM的大小扩大到3B、7B和30B个参数,并通过专家混合(MoE)进一步扩展了模型。在监督微调实验中,MM1在多项基准测试上表现出了竞争力,并且MoE模型在几乎所有基准测试中均表现优于密集模型。
MM1的发布标志着苹果在多模态领域的重要进展,也为未来苹果可能推出的相关产品奠定了技术基础。该研究的成果对于推动生成式人工智能领域的发展具有重要意义,值得业界密切关注。
华为率先实现高铁5G F T双层网协同商用部署:网速提升近3倍
快科技1月2日消息,华为官方发文称,近日,河北联通联合华为在京雄高铁成功实现5GFDDTDD双层网协同商用部署。这是首次在时速310Km/h的京雄高铁列车上进行5G双层网协同商用测试,峰值速率达到710Mbps,相比单层网提升近3倍。据了解,此次测试选取京雄高铁廊坊至霸州段总里程约16公里的线路进行5GFDDTDD双层网络载波聚合(CA,CarrierAggregation)验证。0000工信部:将重点整治强制自动续费、欺骗误导下载等问题
在今日的上半年工业和信息化发展情况新闻发布会上,工信部表示,下一步,将加快移动互联网应用程序公共服务平台建设,建立完善APP认证签名体系,高效支撑行业监管和服务行业发展。重点整治用户反映突出的欺骗误导下载、强制自动续费等痛点问题。推广“骚扰电话拒接”服务,强化电信网络诈骗一体化技防手段,进一步筑牢安全防线。站长网2023-07-19 20:14:390000孟晚舟当值董事长首秀 称预计到2030年人工智能算力将增长500倍
据华为官方消息,4月19日,华为第20届全球分析师大会在深圳开幕,华为副董事长、轮值董事长、CFO孟晚舟在大会上发表了“初心如磐,奋楫笃行,共赢数字化未来”的主题演讲。这也是她任职轮值董事长后的首次当值。站长网2023-04-20 08:49:310000全球最强模型Claude 3颠覆物理/化学!2小时破解博士一年实验成果,网友惊呼:科研不存在了
【新智元导读】这几天,越来越多博士发现,自己耗费数年心血的研究成果,竟然被Claude3轻轻松松实现了?化学,物理学,语言学,不断被Claude3定向爆破,博士手里的论文没发表就被它做出来了。科研还存在吗?Claude3,还在不断创造奇迹。发布还没几天,就有越来越多的博士发现,自己手里还没发表过的研究成果,居然都被Claude3给破解了?!站长网2024-03-07 17:06:190000吃“有毒”数据,大模型反而更听话了!来自港科大&华为诺亚方舟实验室
现在,大模型也学会“吃一堑,长一智”了。来自香港科技大学和华为诺亚方舟实验室的最新研究发现:相比于一味规避“有毒”数据,以毒攻毒,干脆给大模型喂点错误文本,再让模型剖析、反思出错的原因,反而能够让模型真正理解“错在哪儿了”,进而避免胡说八道。具体而言,研究人员提出了“从错误中学习”的对齐框架,并通过实验证明:站长网2023-10-28 13:49:210000