Uncategorized

用Tier 0让GPU节点本地存储再次伟大

降低存储成本，大幅降低功耗，将 GPU 提升至最佳性能，加快价值实现速度大型AI 训练和推理 GPU 计算集群，需要非结构化数据处理支撑。而基础设施成本、空间和功耗限制已经成为瓶颈，传统的外部存储系统，如Lustre/GPFS集群，会增加成本，消耗资源，并且需要以月计的时间来评估、购买和部署存储解决方案。同时，许多 GPU 服务器都有可用的本地容量，但这些容量没有被使用，孤立且不能与其他 GPU 服务器共享，并且无法提供足够的冗余和数据安全性。但是GPU节点上的存储空间，随着硬件的迭代，正变得越来越大，2025主流 GPU服务器已经能够支持100TB的本地NVMe容量，而这个数字，在2026年将会达到2PB，GPU本地存储空间，也在迎来1000倍增加的Scaling Law。如何更好的利用这部分空间呢？——答案就是本文讨论的大规模GPU集群Tier 0解决方案了。 Tier 0 存储架构设计 […]

Uncategorized

KV-Cache是如何让DeepSeek推理加速的？

Uncategorized / yition

在GTC 2025上，不出所料地，nVidia让全世界再次感受到作为这一轮大模型的技术领导者的深厚积累，挤爆牙膏的创新能力。在本次的GTC众多猛料中，毫无疑问，Dynamo的发布，是Deepseek后，nVidia对于外界负面质疑的一次响亮的宣告。认可Deepseek，拥抱Deepseek，借势Deepseek，强调开源模型带来巨大推理市场需求增长，nVidia向市场证明：在这一轮Deepseek掀起的狂潮中，自己依然是最大的赢家——而Dynamo正是这一主张的关键证据。那么，什么是Dynamo？ NVIDIA Dynamo is a high-throughput, low-latency open-source inference serving framework for deploying generative AI and