迷你AI模型TinyLlama发布:高性能、仅637MB
划重点:
- 🚀 经过期待已久,TinyLlama项目发布了一款占用仅637MB的高性能AI模型。
- 📲 可在边缘设备上部署,也可用于辅助大型模型的推测解码。
- 🌐 TinyLlama是Meta开源语言模型Llama2的紧凑版本,性能优越,适用于多领域的语言模型研究。
经过一番期待,TinyLlama项目发布了一款引人注目的开源模型。该项目于去年9月启动,开发人员致力于在数万亿标记上训练一款小型模型。在经历了一些辛勤工作和一些挫折之后,TinyLlama团队如今发布了这个模型。这个模型有着10亿个参数,大约在训练数据上进行了三个时代,或者说是通过训练数据的三个循环。
TinyLlama的最终版本在性能上超越了现有规模相当的开源语言模型,包括Pythia-1.4B、OPT-1.3B和MPT-1.3B。这标志着一个里程碑,为语言模型领域的发展带来了新的可能性。
这款模型不仅仅是规模小,而且其优越性能使其成为部署在边缘设备上的理想选择,因为它仅占用637MB的存储空间。更令人振奋的是,TinyLlama还可以用于辅助更大型模型的推测解码,这为那些依赖大型模型的任务提供了更为灵活的解决方案。前特斯拉高级AI总监、现任OpenAI的Andrej Karpathy的教程被引用,强调了TinyLlama在这一领域的应用前景。
TinyLlama的团队在设计上将其打造成Meta开源语言模型Llama2的紧凑版本,甚至拥有相同的架构和分词器。这意味着它可以轻松地嵌入到基于Llama构建的项目中,为研究人员和从业者提供了一种“有吸引力”的平台,以进行语言模型研究。尽管规模小巧,TinyLlama展现出了在多领域语言模型研究中的广泛用途。
在实际应用中,苹果的机器学习研究科学家Awni Hannun通过使用MLX(苹果的开源训练工具套件)在8GB Mac Mini上对TinyLlama进行了LoRA微调,这显示了这款模型在各种场景下的灵活性和可塑性。团队表示,“凭借其紧凑的架构和出色的性能,TinyLlama可以在移动设备上实现最终用户应用,并成为测试与语言模型相关的创新想法的轻量级平台。”
随着TinyLlama的发布,团队表示他们计划推出“改进版本”,其中包括扩展其性能和多功能性的计划。这为未来的语言模型研究提供了更多的可能性。
这也是近来小型AI模型崛起的一个例证。一些公司开始关注制作规模相对较小但性能优越的模型,以降低硬件运行成本。微软的Phi项目就是其中之一,其Phi-2模型在尺寸上超过了25倍的模型,展现了小型模型的潜力。谷歌也宣布将推出的Gemini Nano,这是其新旗舰基础模型的小型版本,预计在尺寸上约为32亿参数。
这些小型模型在训练中使用更大模型生成的合成数据,从而在性能上表现出色。这一趋势正在推动着人工智能领域的创新,也使得许多小型模型在性能上能够与像OpenAI的GPT这样的前沿模型相媲美。
项目网址:https://github.com/jzhang38/TinyLlama
县城消费觉醒,掀开万亿掘金潮
县城创业,如何复制造富神话?中国有2000多个县级行政区,国土面积占九成,人口占一半。这么“大”的县城,过去在消费者心中的存在感并不强,直到这几年,回到家的北漂、沪漂青年们,不仅发现老家县城大变样,更是惊叹无数“小镇贵妇”的衣食住行焕然一新,撑起了县城消费的一片天。站长网2024-03-05 11:54:200000Meta 推出雷朋智能眼镜的多模态 AI 功能测试:可识别物体并翻译语言
站长之家(ChinaZ.com)12月13日消息:Meta宣布将开始推出其多模态AI功能的早期访问测试,这些功能将应用于MetaRay-Ban(雷朋)智能眼镜,能够通过眼镜的摄像头和麦克风告知用户所看和所听的内容。马克·扎克伯格在Instagram的一个视频中展示了这次更新,他询问眼镜建议哪种裤子与他手里拿着的衬衫相配。站长网2023-12-13 09:37:480000女子优酷追剧惊现3000秒广告 重进后恢复正常
浙江一位女士在看电视时遇到了一则50多分钟的广告,比一集电视剧还长。她将这一特殊经历发到了短视频平台上,并配文:“优酷,你别太过分了”。根据她所说,当时她正在优酷平台观看电视剧《长月烬明》。在该短视频的评论区,女士今天中午回应称并不是每一集都会有3000多秒的广告,前几集都是正常的100多秒,只是这一集出现了问题,但返回重进就好了。站长网2023-04-12 13:19:100000模型A:幸亏有你,我才不得0分,模型B:俺也一样
现在大模型都学会借力了。琳琅满目的乐高积木,通过一块又一块的叠加,可以创造出各种栩栩如生的人物、景观等,不同的乐高作品相互组合,又能为爱好者带来新的创意。我们把思路打开一点,在大模型(LLM)爆发的当下,我们能不能像拼积木一样,把不同的模型搭建起来,而不会影响原来模型的功能,还能起到11>2的效果。0000围炉冰茶又火了,年轻人为何钟情围炉?
“来一桌围炉冰茶,看云雾吞吐;配几碟江南点心,品花开花落”。一周前,这句意境空灵的文案在短视频平台、社交媒体上飞速走红。#围炉冰茶相关话题在抖音的播放量已经超过500万次,作为围炉煮茶的“夏日翻版”,围炉冰茶似乎成为了某种生活方式的延续。站长网2023-04-23 09:06:530000