三个层次：算力、模型、部署

AI 基础设施可以先拆成三层：算力、模型、部署。很多成本和性能问题，都是这三层没有分清。

1. 算力层：训练和推理的物理底座

算力层关心 GPU、TPU、网络、显存、存储和集群调度。

训练大模型需要大量并行计算。推理虽然不一定像训练那么重，但用户量上来后，同样会被显存、吞吐、延迟和并发限制住。

常见问题：

模型层关心 Foundation Model、MoE、embedding model、reranker、small model 等选择。

不是所有任务都该上最强模型。一个成熟系统经常会分层：简单分类用小模型，复杂推理用大模型，检索用 embedding，排序用 reranker，敏感动作再加规则和人工审核。

MoE（Mixture of Experts）这类结构也属于模型层讨论。它关注的是如何在模型内部更有效地分配计算，而不是让所有参数每次都参与同样的计算。

部署层关心 inference、quantization、distillation、cache、batching、monitoring、fallback。

实验室 demo 只要能跑。产品上线要看：

这里经常决定一个 AI 产品能不能真正落地。

基础设施不是“买更多 GPU”这么简单。真正的难点是把算力、模型和部署策略配起来。