Groq大模型推理芯片每秒500tokens超越GPU,喊话三年超过英伟达
划重点:
1. Groq公司推出的大模型推理芯片,每秒500tokens的惊人速度超越了传统GPU,挑战谷歌TPU。
2. 该芯片由初创公司Groq研发,由谷歌TPU团队原班人马打造,推理速度提高10倍,成本降低十分之一,支持多种大模型。
3. Groq的目标是在三年内超越英伟达,采用自创的LPU方案,克服计算密度和内存带宽瓶颈,实现18倍于云平台速度的推理性能。
Groq公司推出的大模型推理芯片以每秒500tokens的速度引起轰动,超越了传统GPU和谷歌TPU。该芯片由初创公司Groq研发,其团队成员来自谷歌TPU,包括创始人兼CEO Jonathan Ross,曾设计实现第一代TPU芯片的核心元件。
Groq采用了全球首个LPU(Language Processing Unit)方案,旨在克服计算密度和内存带宽的瓶颈,最终实现大模型推理性能比其他云平台厂商快18倍。据介绍,英伟达GPU需要大约10到30焦耳才能生成响应中的tokens,而Groq仅需1到3焦耳,使得推理速度提高了10倍,成本降低十分之一,性价比提高了100倍。
Groq的芯片采用14nm制程,搭载了230MB大SRAM以保证内存带宽,片上内存带宽高达80TB/s。在算力方面,该芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。基于自研的TSP架构,Groq利用机器学习工作负载的并行性对推理进行加速,并支持通过PyTorch、TensorFlow等标准机器学习框架进行推理。
Groq公司在演示中展示了其芯片的强大性能,支持Mixtral8x7B SMoE、Llama2的7B和70B等多种模型,并可直接体验Demo。不仅如此,Groq还喊话各大公司,扬言在三年内超越英伟达。该公司的推理芯片在第三方网站上的售价为2万多美元。
Groq公司以其创新的LPU方案和超越性能的大模型推理芯片,成为大模型推理领域令人瞩目的新兴力量,引领着技术的飞速发展。
Groq产品的特色亮点如下:
1. API访问速度极快:Groq提供了API密钥,可以访问世界上最快的开源大型语言模型(LLM)推理速度。他们的实现在Anyscale的LLMPerf Leaderboard上展示了相较于云服务提供商高达18倍的推理性能。
2. 支持开源LLM模型:*Groq支持Llama2-70B和7B,这两个由Meta AI创建的领先的开源基础LLM模型。这些Groq实现使用4096的上下文长度。
3. 支持其他模型:*除了Llama系列外,Groq还支持Mixtral8x7B,由Mistral AI创建,可根据请求提供。其他模型如Mistral和CodeLlama也可根据特定客户请求提供。
4. 免费试用期: 提供为期10天的免费试用期,可以根据请求进行刷新。在试用期间,用户将获得100万免费令牌,并且API与OpenAI API完全兼容。
5. 价格保证: Groq保证以击败任何已发布的相应模型的百万令牌价格。他们的定价相对较低,可以提供更具竞争力的服务。
6. 早期访问计划: Groq提供了Alpha版本的API的早期访问计划,免费供研究和开发目的使用。公共可用性计划于2024年第二季度。
7. 高性能硬件支持: Groq引擎(LPU™ Inference Engine)在性能上优越,通过硬件支持实现了18倍于云服务提供商的LLM推理性能。
Groq产品以其出色的推理性能、对多种开源LLM模型的支持以及具有竞争力的价格政策等特色,成为一个引人注目的选择。
项目入口:https://top.aibase.com/tool/groq
文心一言率先全面开放!百度宣布文心一言向全社会全面开放
8月31日,文心一言宣布率先向全社会全面开放。广大用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”(https://yiyan.baidu.com)体验。据悉,百度还将开放一批经过全新重构的AI原生应用,让广大用户充分体验生成式AI的理解、生成、逻辑、记忆四大核心能力。今年3月16日,文心一言开启邀测,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。站长网2023-08-31 08:05:040000不到一年,「SeaArt」如何从内部工具走向千万访问量toC产品
SeaArt,是AI图片网站里相对独特的存在,由成都一家游戏公司孵化成立,却在图片领域做得顺风顺水。2024年3月份,SeaArt全球访问量突破1000万,在全球AI产品网站流量总榜上排名53位。我们随后也对该产品进行了拆解,从产品设计来说,SeaArt最吸引人的一点是通过设计不同门槛的功能,形成了一个拥有内容生产到内容消费的社区生态,满足不同用户需求,降低运转的负载。站长网2024-06-27 18:43:510000微信:9月1日起 微信小程序须完成备案后才可上架
站长网2023-08-10 10:17:080000特斯拉车机将可使用苹果播客 应用实时同步内容
特斯拉X平台官方账号近日发布一则消息,宣布苹果播客(Podcast)应用将在下周推出。据特斯拉计划,在未来的“2023假日更新”中,用户将能够在其汽车的启动器上发现苹果播客App。0000搜索引擎正在没落,AI成了救世主?
建立搜索引擎很难,但在今天更难的是说服用户使用它。这是绝大部分搜索引擎面对的问题,微软的Bing是,字节跳动的悟空搜索是,腾讯的搜狗搜索也是,它们始终难以改变搜索引擎市场的格局。最难的问题是在用户心智上,百度之于中国人如同搜索,谷歌对海外用户而言也早已成为搜索的同义词。站长网2023-05-29 09:23:560000