迷你AI模型TinyLlama发布:高性能、仅637MB
划重点:
- 🚀 经过期待已久,TinyLlama项目发布了一款占用仅637MB的高性能AI模型。
- 📲 可在边缘设备上部署,也可用于辅助大型模型的推测解码。
- 🌐 TinyLlama是Meta开源语言模型Llama2的紧凑版本,性能优越,适用于多领域的语言模型研究。
经过一番期待,TinyLlama项目发布了一款引人注目的开源模型。该项目于去年9月启动,开发人员致力于在数万亿标记上训练一款小型模型。在经历了一些辛勤工作和一些挫折之后,TinyLlama团队如今发布了这个模型。这个模型有着10亿个参数,大约在训练数据上进行了三个时代,或者说是通过训练数据的三个循环。

TinyLlama的最终版本在性能上超越了现有规模相当的开源语言模型,包括Pythia-1.4B、OPT-1.3B和MPT-1.3B。这标志着一个里程碑,为语言模型领域的发展带来了新的可能性。
这款模型不仅仅是规模小,而且其优越性能使其成为部署在边缘设备上的理想选择,因为它仅占用637MB的存储空间。更令人振奋的是,TinyLlama还可以用于辅助更大型模型的推测解码,这为那些依赖大型模型的任务提供了更为灵活的解决方案。前特斯拉高级AI总监、现任OpenAI的Andrej Karpathy的教程被引用,强调了TinyLlama在这一领域的应用前景。
TinyLlama的团队在设计上将其打造成Meta开源语言模型Llama2的紧凑版本,甚至拥有相同的架构和分词器。这意味着它可以轻松地嵌入到基于Llama构建的项目中,为研究人员和从业者提供了一种“有吸引力”的平台,以进行语言模型研究。尽管规模小巧,TinyLlama展现出了在多领域语言模型研究中的广泛用途。
在实际应用中,苹果的机器学习研究科学家Awni Hannun通过使用MLX(苹果的开源训练工具套件)在8GB Mac Mini上对TinyLlama进行了LoRA微调,这显示了这款模型在各种场景下的灵活性和可塑性。团队表示,“凭借其紧凑的架构和出色的性能,TinyLlama可以在移动设备上实现最终用户应用,并成为测试与语言模型相关的创新想法的轻量级平台。”
随着TinyLlama的发布,团队表示他们计划推出“改进版本”,其中包括扩展其性能和多功能性的计划。这为未来的语言模型研究提供了更多的可能性。
这也是近来小型AI模型崛起的一个例证。一些公司开始关注制作规模相对较小但性能优越的模型,以降低硬件运行成本。微软的Phi项目就是其中之一,其Phi-2模型在尺寸上超过了25倍的模型,展现了小型模型的潜力。谷歌也宣布将推出的Gemini Nano,这是其新旗舰基础模型的小型版本,预计在尺寸上约为32亿参数。
这些小型模型在训练中使用更大模型生成的合成数据,从而在性能上表现出色。这一趋势正在推动着人工智能领域的创新,也使得许多小型模型在性能上能够与像OpenAI的GPT这样的前沿模型相媲美。
项目网址:https://github.com/jzhang38/TinyLlama
文心一言率先全面开放!百度宣布文心一言向全社会全面开放
8月31日,文心一言宣布率先向全社会全面开放。广大用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”(https://yiyan.baidu.com)体验。据悉,百度还将开放一批经过全新重构的AI原生应用,让广大用户充分体验生成式AI的理解、生成、逻辑、记忆四大核心能力。今年3月16日,文心一言开启邀测,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。站长网2023-08-31 08:05:040000Meta AI发布炸裂项目audio2photoreal 可将音频生成全身逼真的虚拟人物形象
MetaAI最近发布了一项引人注目的技术,他们成功地开发出一种能够从音频中生成逼真的虚拟人物形象的系统。这个系统能够根据多人对话中的语音生成与对话相对应的逼真面部表情、完整身体和手势动作。这些虚拟人物不仅在视觉上非常逼真,而且能够准确地反映出对话中的手势和表情细节,例如指点、手腕抖动、耸肩、微笑和嘲笑等。站长网2024-01-04 18:16:100001吴泳铭乌镇峰会发言:AI时代阿里巴巴专注做好两件事
快科技11月20日消息,在2024世界互联网大会乌镇峰会上,阿里巴巴集团CEO吴泳铭表示,AI推动千行百业生产力变革,将创造远超互联网链接所创造的价值。他表示:面向AI时代,阿里巴巴专注做好两件事,一是不断完善AI基础设施,二是坚持开源开放,把AI能力转化为千行百业的生产力。”吴泳铭指出,过去30年互联网的主要价值在于链接,而未来30年AI将全面提升全球生产力水平。站长网2024-11-21 09:31:320000元象大模型向全社会开放 多个高性能大模型全部开源并免费商用
元象信息科技有限公司(元象XVERSE)宣布,元象大模型将向全社会开放服务。元象大模型是元象从头训练、全链路自主研发的高性能通用大模型系列,具备优秀的中文创作、逻辑推理和任务执行能力。站长网2023-11-13 21:44:490000