昆仑万维：天工大模型推理能力超过GPT-3.5和LLaMA2

站长网2023-09-18 08:34:110阅

昆仑万维表示，其自研的天工大模型在 Benchmark GSM8K 测试中取得了80% 的正确率，超过了 GPT-3.5和 LLaMA2-70B，达到了全球领先水平，接近于 GPT-4。

天工大模型还在 MMLU、C-EVAL、HumanEval 等多个数据集上表现出色，准确率均高于其他主流大模型。同样，在中文开源数据集 CMATH 测试中，天工大模型也表现优秀，准确率超过了其他主流大模型。

昆仑万维表示，天工大模型的优秀表现得益于其对多数据源的高效融合策略、不同语言间的能力迁移以及对基座逻辑推理能力的深入探索。与 GPT-3.5相比，天工大模型的解题思路更为简单、清晰。

天工大模型目前仍处于内测阶段，将持续提升技术实力，为用户和企业提供强大的智能化助力。

昆仑万维天工大模型推理能力超过GPT3 5和LLaMA2

0000

评论列表

共(0)条

相关推荐

2023，本地生活的32个时刻
2023年1月16日，滴滴出行官微发文称，即日起恢复“滴滴出行”的新用户注册。全面整改563天之后，滴滴又回来了。滴滴的突然回归，让包括出行在内的泛本地生活领域一下子热了起来。消费下沉、即时零售、数字化、流量接口、互联互通、内容化、直播......这是本地生活的热闹元年，各互联网平台、品牌和商家都在加速入局。站在年终岁尾展望2024，互联网大公司的下一个主战场，会是本地生活业务吗?
站长网站长资讯2023-12-31 11:28:33
0000
站长资讯
麦肯锡最新报告预测生成式 AI 时代就业市场的赢家和输家
有些事情的发展速度比预期快，比如看到新技术的影响渗入我们的个人和职业生活中。这可能是最引发焦虑的。似乎生成式人工智能劳动力时代已经来临，投资者们将数十亿美元倾注于可以产生前所未有结果的新工具中，这些工具并不仅仅在某些时候会出现故障。许多员工担心人工智能会夺走他们的工作。一些专家警告AI相关的「梦魇般的情景」，而其他人则更乐观，试图减少危言耸听。
站长网2023-08-02 09:28:07
0000
站长资讯
谷歌正在合并其 Android 软件和 Pixel 硬件部门，以更广泛地整合人工智能
谷歌正在对Android、Chrome和谷歌硬件部门进行重大重组：它们即将合并！谷歌硬件部门高级副总裁RickOsterloh将领导新的「平台与设备」部门。此前负责软件平台如Android和ChromeOS的HiroshiLockheimer将转向谷歌的「一些新项目」。
站长网2024-04-20 14:00:32
0001
站长资讯
给用户免单的淘宝，好起来了吗？
取消预售、升级网页版、推出免单活动，最近一段时间的淘宝堪称热搜“专业户”。在618大促正式开始前，淘宝正急着向用户交出改革成绩单。从去年开始，马云、蔡崇信、吴泳铭都或多或少地点明了淘天集团的问题在于忽视了用户体验。闷头狂奔的那些年里，淘天的版图虽然得以无限扩大，但自身的臃肿程度却也与日俱增，直到“正视现状，重新创业”的新要求出现，淘天内部的“大换血”才被提上日程。
站长网2024-05-11 08:34:45
0000
站长资讯
Sora官方发布首支MV《Worldweight》
划重点:⭐️Sora发布的《Worldweight》MV受到网友关注，引发热议。⭐️艺人AugustKamp表示，Sora将他心中的音乐世界呈现为视觉效果，让他感到由衷高兴。⭐️尽管Sora的MV获得好评，但一些艺术家对AI在音乐创作中的应用提出质疑，认为可能侵犯艺术家的权益。今日，Sora官方发布了首支MV《Worldweight》《Worldweight》MV成为热议话题。
站长网2024-04-08 12:47:42
0001