Uncategorized

Uncategorized

用Tier 0让GPU节点本地存储再次伟大

降低存储成本,大幅降低功耗,将 GPU 提升至最佳性能,加快价值实现速度 大型AI 训练和推理 GPU 计算集群,需要非结构化数据处理支撑。而基础设施成本、空间和功耗限制已经成为瓶颈,传统的外部存储系统,如Lustre/GPFS集群,会增加成本,消耗资源,并且需要以月计的时间来评估、购买和部署存储解决方案。 同时,许多 GPU 服务器都有可用的本地容量,但这些容量没有被使用,孤立且不能与其他 GPU 服务器共享,并且无法提供足够的冗余和数据安全性。 但是GPU节点上的存储空间,随着硬件的迭代,正变得越来越大,2025主流 GPU服务器已经能够支持100TB的本地NVMe容量,而这个数字,在2026年将会达到2PB,GPU本地存储空间,也在迎来1000倍增加的Scaling Law。 如何更好的利用这部分空间呢?——答案就是本文讨论的大规模GPU集群Tier 0解决方案了。 Tier 0 存储架构设计 […]

Uncategorized

KV-Cache是如何让DeepSeek推理加速的?

在GTC 2025上,不出所料地,nVidia让全世界再次感受到作为这一轮大模型的技术领导者的深厚积累,挤爆牙膏的创新能力。 在本次的GTC众多猛料中,毫无疑问,Dynamo的发布,是Deepseek后,nVidia对于外界负面质疑的一次响亮的宣告。 认可Deepseek,拥抱Deepseek,借势Deepseek,强调开源模型带来巨大推理市场需求增长,nVidia向市场证明:在这一轮Deepseek掀起的狂潮中,自己依然是最大的赢家——而Dynamo正是这一主张的关键证据。 那么,什么是Dynamo? NVIDIA Dynamo is a high-throughput, low-latency open-source inference serving framework for deploying generative AI and

Scroll to Top