1800亿参数,支持中文,3.5万亿训练数据!开源类ChatGPT模型
阿联酋阿布扎比技术创新研究所(Technology Innovation Institute,简称TII)在官网发布了,目前性能最强的开源大语言模型之一Falcon180B。
TII表示,Falcon180B拥有1800亿参数,使用4096个GPU在3.5万亿token 数据集上进行训练,这也是目前开源模型里规模最大的预训练数据集之一。Falcon180B有基础和聊天两个模型,允许商业化。
Falcon180B在多个权威测试平台中,在推理、编程、知识测试等方面,超过了Meta最新发布的 Llama270B 和 OpenAI 的 GPT-3.5,可媲美谷歌的PaLM2-Large仅次于GPT-4。
基础开源地址:https://huggingface.co/tiiuae/falcon-180B
聊天开源地址:https://huggingface.co/tiiuae/falcon-180B-chat
在线测试地址:https://huggingface.co/spaces/tiiuae/falcon-180b-demo
今年5月,「AIGC开放社区」曾介绍过TII发布的一款类ChatGPT开源大语言模型Falcon-40B。
该产品刚推出便成为Huggingface的开源大语言模型排行第一名,击败了LLaMa65b、GPT4-X-Alpasta-30b、LLaMa30b等众多著名开源项目成为一匹黑马。
Falcon180B便是在Falcon-40B基础之上研发而成,并将模型参数扩大了4.5倍,训练集从1万亿提升至3.5万亿token,并在算法、推理、硬件部署方面进行了大幅度优化。
其中,最大的亮点就是Falcon180B- chat版本支持中文,并进行了数据微调。
Falcon180B简单介绍
预训练方面,Falcon180通过使用 Amazon SageMaker 在多达4096个GPU上同时对3.5万亿个token数据集进行训练,总共花费了约7,000,000个小时。
TII表示,Falcon180B的规模是Llama2的2.5倍,而训练所需的算力资源是Llama2的4倍。
Falcon180B的训练数据集主要来自RefinedWeb的网络数据(大约占85%)。还在对话、技术论文和一小部分代码 (约占3%) 等,经过整理的混合数据的基础上进行了训练。
Falcon180B-chat模型在聊天和指令数据集上进行了微调,并混合了多个大规模对话数据集,使其能够更好地理解用户的文本提示意图,生成丝滑、流畅、拟人化的各种文本内容。
Falcon180B性能评测
Falcon180B在MMLU上的测试结果,优于Llama270B 和 OpenAI 的 GPT-3.5;在 HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC等测试中,可媲美谷歌的PaLM2-Large。
目前,Falcon180B在Hugging Face排行榜上得分为68.74,是得分最高的公开发布的预训练大语言模型,超越了Meta的 LLaMA2、LLaMA等。
Falcon180B- chat使用体验
「AIGC开放社区」通过在线demo体验了一下Falcon180B- chat,使用方法和ChatGPT一样,中文生成的内容基本达到了GPT-3.5的效果,支持单话题,多轮深度询问。
例如,询问,中国历史上有哪些著名诗人?Falcon180B- chat可以按照罗列的方式,列出最知名的诗人。
让其详细介绍一下李白。
再介绍一下李白对现代人的影响。Falcon180B- chat的整体回复内容非常丝滑、流畅。
关于TII
TII 成立于2020年,是阿布扎比高等教育和科技部 (ADEK) 旗下的研究机构。TII 的目标是推动科学研究、开发前沿技术并将其商业化,以促进阿布扎比和阿联酋的经济发展。
目前,TII拥有来自74个国家的800多名研究专家,发表了700多篇论文和25多项专利,是世界领先的科学研究机构之一。
漫画图像翻译器cotrans:可一键翻译各类图片内文字
cotrans是一个能够一键翻译各类图片内文字的工具,主要用于翻译漫画和图片中的文字。它支持多种语言,包括日语、中文、英语和韩语,并提供了涂抹和文本渲染功能。核心功能:图片翻译:将图片中的文字翻译成目标语言,支持漫画和其他类型的图片。多语言支持:支持多种语言翻译,包括日语、中文、英语和韩语。涂抹功能:可以用来处理涂抹过的文本区域,使其变得清晰可读。站长网2023-07-21 16:46:410000苹果Vision Pro国行将于6月28日发售 售价29999元起
苹果今日正式宣布,AppleVisionPro头显将于6月28日在中国大陆市场正式开售,起售价定为29999元。这款全新的增强现实设备承载着苹果对于未来十年取代iPhone的宏伟愿景,旨在为用户带来前所未有的数字化内容与现实世界的融合体验。站长网2024-06-12 01:00:360000浙大、蚂蚁集团推出MaPa:文本生成超真实3D模型
浙江大学、蚂蚁集团、深圳大学联合推出了创新模型MaPa。与传统纹理方法不同的是,MaPa通过文本能直接生成高分辨率、物理光照、超真实材质的3D模型,可以极大提升游戏、VR、AR、影视等行业的开发效率。研究人员在多个知名平台对MaPa进行了综合测试。结果显示,在无参考图像的情况下MaPa生成的模型材质、分辨率、局部细节,比TEXTure、Text2tex、Fantasia3D等模型的效果更好。站长网2024-06-11 17:20:350001外国博主,还能“坐地吸金”吗?
“给外国人一点小小的亚运震撼。”随着国庆假期的结束,杭州亚运会也落下了帷幕。这场长达15日的盛会,外国人作为其中的显眼包,让不少杭州人体验了一把“无痛出国”,“外国人来亚运会进货”“还不如一个外国人会讲价”“在哪里能偶遇中东富豪”等话题也频频在社交平台刷新存在感。站长网2023-10-09 17:51:380002AI大佬Wolfram最新演讲:宇宙的本质是基于计算模型
要点:1.英国科学家StephenWolfram在TED演讲中分享了他的观点,认为宇宙是基于计算模型运行的,由离散元素遵循简单计算规则构成。2.Wolfram提出了ruliad的概念,它代表所有可能的计算过程的复杂极限,将计算视为宇宙的终极表达方式。3.演讲中讨论了不同的科学模型范式,包括物质构成、数学公式建模以及基于计算规则的模型,并强调观察者的重要性。站长网2023-11-06 14:58:070000