智谱新模型屠榜!国产GPU神速适配,全球第一不是吹的

  • 时间:
  • 浏览:160
  • 来源:越西县融媒体中心

6月17日有消息显示, 智谱于今日宣告上线并且开源GLM - 5.2。在历经全球百万用户参与的盲测的前端开发评估系统Code Arena上, GLM - 5.2展现出取得全球可用模型第一的表现。摩尔线程于今日宣称在AI训推一体全功能GPU智算卡MTT S5000上, 达成了对智谱新一代开源旗舰模型GLM - 5.2的Day - 0极速适配。

据悉, 摩尔线程技术群体依据 SGLang-MUSA 推理引擎以及 TileLang-MUSA 算子编程语言, 达成了模型结构适配, 完成了关键算子优化, 开展了框架拉起与部署验证, 于 MTT S5000 上面达成了 GLM-5.2 的高效且高精度推理。摩尔线程还宣称, MTT S5000 针对硬件算力、软件栈以及开源框架实施了全链路适配并进行了深度优化。

支撑超长上下文

具 GLM - 5.2 的,有 Solid 1M 上下文以及长程任务能力的, 致使长 Prompt 编码, 还有上下文读入以及 KV Cache 生成, 成为推理链路里的关键环节。长输入请求, 在进入生成阶段以前, 要先完成大规模 Prefill 计算;这一阶段, 格外依赖并行矩阵计算, 以及 Attention 算子效率, 还有显存容量以及访存带宽。

MTT S5000, 依靠硬件级原生 FP8 加速, 单卡有着高达 1000 TFLOPS 的稠密算力, 搭载了 80GB 大容量的显存, 还有 1.6TB/s 的超高带宽, 它能够在长输入 Prefill 阶段, 集中释放出高吞吐的优势, 能为百万 token 级上下文处理, 提供充足的缓存空间, 以及稳定的数据吞吐。依赖MUSA C++、Triton-MUSA以及TileLang-MUSA等工具链, GLM-5.2相关算子结构能够迅速迁移, 且针对长序列场景不断优化, 助力减少长进上下文请求的首Token等待时间(TTFT), 提高AI Coding、RAG和长文档分析等场景的在线推理效率。

赋能前沿 Coding 与 Agent 能力

摩尔线程, 基于 GLM 家族多代模型的适配与优化经验, 针对 GLM - 5.2 重点强化的编程、智能体以及长程任务场景, 把模型结构适配、算子优化、框架拉起和部署验证能力, 快速迁移至 GLM - 5.2。借助原生算子定制, 依靠TileLang - MUSA编程优化及SGLang - MUSA推理框架协同, MTT S5,000在确保模型精度条件下, 可提升推理吞吐, 还能够降低响应延迟, 进而为客户供给面向AI Coding、Agent工作流以及长文档分析的高效推理服务。

IT之家附开源链接如下:

GitHub的链接呈上, 它是这样的, https://github.com/zai-org/GLM - 5。

抱脸之面网址为, https://huggingface.co/zai-org/GLM-5.2 , 此乃特定链接。

ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.2

猜你喜欢

43家公司集体发异动公告!A股这是要炸锅?

今夜,43家A股公司提示风险

2026-06-24

一万名海员困海峡,国际组织终于出手!这救援,迟到了多久?

“1天内1900万桶石油通过海峡”,国际油价持续下行

2026-06-24

75岁王石被全网造谣,忍无可忍直接报案起诉,硬刚造谣者

他给自己和团队立下底线:不行贿、不搞歪门邪道,坚持透明规范经营。

2026-06-24

婚姻成男人脂肪培养皿,幸福肥背后真相太扎心

每次刷到“男人健康最大的杀手不是烟酒,而是老婆”这类说法,评论区都吵得不可开交。这话听起来确实刺耳,但抛开情绪仔细想想,婚姻对男性健康的影响,还真不是一两句话能说清楚的。

2026-06-24

二十年磨一剑!海纳医药邹巧根,用仿制药撕开万亿市场缺口

对赌压顶、现金告急:海纳医药的港股IPO生死局

2026-06-24