智谱新模型屠榜！国产GPU神速适配，全球第一不是吹的

时间:2026-06-17 23:59:53
浏览:160
来源:越西县融媒体中心

6月17日有消息显示, 智谱于今日宣告上线并且开源GLM - 5.2。在历经全球百万用户参与的盲测的前端开发评估系统Code Arena上, GLM - 5.2展现出取得全球可用模型第一的表现。摩尔线程于今日宣称在AI训推一体全功能GPU智算卡MTT S5000上, 达成了对智谱新一代开源旗舰模型GLM - 5.2的Day - 0极速适配。

据悉, 摩尔线程技术群体依据 SGLang-MUSA 推理引擎以及 TileLang-MUSA 算子编程语言, 达成了模型结构适配, 完成了关键算子优化, 开展了框架拉起与部署验证, 于 MTT S5000 上面达成了 GLM-5.2 的高效且高精度推理。摩尔线程还宣称, MTT S5000 针对硬件算力、软件栈以及开源框架实施了全链路适配并进行了深度优化。

支撑超长上下文

具 GLM - 5.2 的,有 Solid 1M 上下文以及长程任务能力的, 致使长 Prompt 编码, 还有上下文读入以及 KV Cache 生成, 成为推理链路里的关键环节。长输入请求, 在进入生成阶段以前, 要先完成大规模 Prefill 计算；这一阶段, 格外依赖并行矩阵计算, 以及 Attention 算子效率, 还有显存容量以及访存带宽。

MTT S5000, 依靠硬件级原生 FP8 加速, 单卡有着高达 1000 TFLOPS 的稠密算力, 搭载了 80GB 大容量的显存, 还有 1.6TB/s 的超高带宽, 它能够在长输入 Prefill 阶段, 集中释放出高吞吐的优势, 能为百万 token 级上下文处理, 提供充足的缓存空间, 以及稳定的数据吞吐。依赖MUSA C++、Triton-MUSA以及TileLang-MUSA等工具链, GLM-5.2相关算子结构能够迅速迁移, 且针对长序列场景不断优化, 助力减少长进上下文请求的首Token等待时间（TTFT）, 提高AI Coding、RAG和长文档分析等场景的在线推理效率。

赋能前沿 Coding 与 Agent 能力

摩尔线程, 基于 GLM 家族多代模型的适配与优化经验, 针对 GLM - 5.2 重点强化的编程、智能体以及长程任务场景, 把模型结构适配、算子优化、框架拉起和部署验证能力, 快速迁移至 GLM - 5.2。借助原生算子定制, 依靠TileLang - MUSA编程优化及SGLang - MUSA推理框架协同, MTT S5,000在确保模型精度条件下, 可提升推理吞吐, 还能够降低响应延迟, 进而为客户供给面向AI Coding、Agent工作流以及长文档分析的高效推理服务。

IT之家附开源链接如下：

GitHub的链接呈上, 它是这样的, https://github.com/zai-org/GLM - 5。

抱脸之面网址为, https://huggingface.co/zai-org/GLM-5.2 , 此乃特定链接。

ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-5.2

智谱新模型屠榜！国产GPU神速适配，全球第一不是吹的

43家公司集体发异动公告！A股这是要炸锅？

一万名海员困海峡，国际组织终于出手！这救援，迟到了多久？

75岁王石被全网造谣，忍无可忍直接报案起诉，硬刚造谣者

婚姻成男人脂肪培养皿，幸福肥背后真相太扎心

二十年磨一剑！海纳医药邹巧根，用仿制药撕开万亿市场缺口