清华大学开源赤兔大模型推理引擎，DeepSeek 推理成本减半，吐字效率翻倍

编程

更新时间：2025-05-260

admin管理员组
文章数量:1444890

清华大学开源赤兔大模型推理引擎，DeepSeek 推理成本减半，吐字效率翻倍

最近 DeepSeek 火爆全网，相信不少同学都看过所谓的清华大学 DeepSeek 提示词教程（笑）。清华大学是真干实事，近日开源最新的大模型推理引擎赤兔（chitu），是一个专注于效率、灵活性和可用性的高性能大语言模型推理框架。

多元算力适配：不仅支持 NVIDIA 最新旗舰到旧款的多系列产品，也为国产芯片提供优化支持。
全场景可伸缩：从纯 CPU 部署、单 GPU 部署到大规模集群部署，赤兔引擎提供可扩展的解决方案。
长期稳定运行：可应用于实际生产环境，稳定性足以承载并发业务流量。

所谓人中吕布，马中赤兔，名字寓意很好，而性能也超越或者与 vLLM 相当，可谓是名副其实了。我们先看一组实测数据，感受一下赤兔推理引擎的强大。

1. A800 实测

在 A800(40GB) 集群上部署 DeepSeek-R1-671B，vLLM 与 Chitu 同时运行 DeepSeek-R1-671B，3 节点可达 vLLM 6 节点的吐字效率。

这里官方 Repo 没做说明，推测应该是每机器节点 8 卡 A800，即 240G 显存，共 3 个（720G）或者 6 个节点（1440G），不然显存无法运行 BF8 或者 BF16 的满血版本 R1。

乍一看好像很强，其实这个数据没那么明显。事实上，我们应该比的是 6 节点之间的比较，6.85 和 8.5 的差距，有提升但不大。3 节点因为运行的是 FP8，所以不好直接比较的。好在，官网也有在双机 8 卡 H20（96G）上的实测对比数据。

2. H20 实测

在批量较小的情况下，chitu 性能略强或相当于 vllm，在大批量场景下，chitu 的性能有巨大的下降，大约只有 vllm 的 67.9%。

官方表示，我们将在 Chitu 的后续版本中对大批量处理场景进行优化。

我相信大批量场景下，chitu 很快就会优化好。毕竟单 batch 性能领先情况下，大批量只是时间问题，毕竟 3 月 14 号刚开源，就敢和老牌开源推理引擎 vLLM 掰手腕。

3. 支持的模型

官方目前没有一个支持模型的列表，从官方 Repo 上看，涵盖了从 Qwen 7B 到 DeepSeek 671B，主流的开源模型基本都包含了。

DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-bf16
DeepSeek-R1
Meta-Llama-3-8B-Instruct-original
Mixtral-8x7B-Instruct-v0.1
Qwen2-72B-Instruct
Qwen2-7B-Instruct
glm-4-9b-chat

4. 总结

具体部署可参考官方 Repo，希望赤兔越来越快，快如其名！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-03-18，如有侵权请联系 cloudcommunity@tencent 删除DeepSeek开源部署模型效率

本文标签：清华大学开源赤兔大模型推理引擎，DeepSeek 推理成本减半，吐字效率翻倍

版权声明：本文标题：清华大学开源赤兔大模型推理引擎，DeepSeek 推理成本减半，吐字效率翻倍内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1748219237a2828122.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

清华大学开源赤兔大模型推理引擎，DeepSeek 推理成本减半，吐字效率翻倍

清华大学开源赤兔大模型推理引擎，DeepSeek 推理成本减半，吐字效率翻倍

1. A800 实测

2. H20 实测

3. 支持的模型

4. 总结

更多相关文章

清华大学开源赤兔大模型推理引擎，DeepSeek 推理成本减半，吐字效率翻倍

发表评论

推荐文章

推荐一个简化配置docker

CentOS 7编译安装Boost

【算法】DFS、Floodfill、记忆化搜索

开发者必看！如何用 ChatGPT 和 AI 工具提升学习效率，快速进阶技能？

G1原理—1.G1回收器的分区机制

热门文章

高性能PHP框架webman集成支付宝支付

数据结构 : 数组链表二叉排序树增删改查的时间复杂度解析

7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？

什么是功能分解

统计打破得分记录的次数以及打破得分记录的状态是最低的得分记录打破还是最高的得分记录打破

解析 ChatGPT 网页版回复流式模式的原理与应用

count转TPMFPKM实战（GSE229904）

软考高级信息系统管理工程师通关100题（21

Debian12系统如何安装宝塔面板？

DeepSeek入驻WPS，不用写JS宏代码也能提效300%！

最新文章

Mybatis一级缓存、二级缓存详讲

喂饭教程！全网首发Neo4J可视化GraphRAG索引

MacOS已推送支持GPT

为何RAG应用在生产中难以成功？

GraphRAG失效？快用Prompt Tune适配文档的领域和语言

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

外星人Alienware M15 ALW15M-D3729S参数报价

海尔S15 Pro-M5i716GB1TB参数报价

海尔S15 Pro-M5i58GB512GB参数报价

技械骑士HZ60 13代酷睿i716GB512GB4G独显参数报价

ThinkPad L13 11代酷睿 i7 1165G716GB512GB集显 参数报价

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow

ThinkPad L13 11代酷睿 i7 1165G716GB512GB集显参数报价