KTransformers打造全国产大模型方案

2025-11-20 21:19:50 来源: 科技日报点击数：

科技日报记者罗云鹏

记者11月20日获悉，趋境科技与清华大学共同开源的KTransformers，正以异构协同释放本地硬件潜力，通过开源能力帮助更多团队和组织用得起、调得动、融得进自己的业务中，逐步实现算力普惠。

据悉，月之暗面于11月6日正式发布Kimi-K2-Thinking模型后，KTransformers已完成对该模型的全面适配，单卡环境可完成推理任务，2卡环境可完成LoRA微调任务，大幅降低部署与定制化门槛。

同时，趋境科技已完成该模型在昇腾NPU上的全面适配，提供了完善的全国产化推理解决方案，为国产硬件生态与大模型落地搭建起高效桥梁。

KTransformers是一个高性能异构推理框架，专注于高效利用底层GPU、CPU、内存等多样化算力。在大模型推理中，它提出了面向CPU+GPU异构架构的MoE推理系统方案，通过系统级创新让GPU负责注意力和主干网络的高并行计算，CPU承担稀疏专家模块的推理任务，实现高效协同执行，让原本依赖昂贵多卡GPU的大模型，能在CPU参与的硬件环境中实现接近同等性能的推理体验。

10月，KTransformers与主流推理框架SGLang达成合作，双方架构合入同一分支。在Kimi-K2-1TB的模型推理任务中，用户仅需简单安装SGLang与KTransformers CPU内核，下载官方模型及量化权重，即可通过一条命令启动服务，且仅需单张消费级GPU+CPU。此次合作推动大模型推理向更高性能、更低成本的方向演进，助力其更广泛的产业落地。

此外，针对模型微调的核心需求，KTransformers与LLaMA-Factory深度集成，支持LoRA等轻量级微调方法，占用约41GB显存+2T内存，就能实现46.55token/s的微调吞吐量。

责任编辑：孙莹

网友评论

最热评论

没有更多评论了

KTransformers打造全国产大模型方案

友情链接

抱歉，您使用的浏览器版本过低或开启了浏览器兼容模式，这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级，继续浏览