这个博客主要记录我在 AI Infra 方向的学习与实践过程。
学习路线
- Transformer 基础:prefill/decode、KV cache、指标(TTFT/TPOT)怎么落到系统观测
- 推理引擎拆解:调度与 batching、KV/显存管理、多卡通信、可观测与调试闭环
- CUDA / Triton 实战:从推理瓶颈出发写/改算子(例如 RMSNorm、RoPE、attention 相关)
由于自己是初学,更新博客内容可能会有误解,如有发现,欢迎沟通:https://github.com/xystart