三个层次:算力、模型、部署
从计算资源、模型底座和部署效率三层理解 AI 基础设施。
AI 基础设施可以先拆成三层:算力、模型、部署。很多成本和性能问题,都是这三层没有分清。
1. 算力层:训练和推理的物理底座
算力层关心 GPU、TPU、网络、显存、存储和集群调度。
训练大模型需要大量并行计算。推理虽然不一定像训练那么重,但用户量上来后,同样会被显存、吞吐、延迟和并发限制住。
常见问题:
- 模型太大,单卡放不下;
- 上下文太长,显存占用暴涨;
- 并发上来后,延迟不稳定;
- GPU 很贵,但利用率不高。
2. 模型层:能力怎么被组织和复用
模型层关心 Foundation Model、MoE、embedding model、reranker、small model 等选择。
不是所有任务都该上最强模型。一个成熟系统经常会分层:简单分类用小模型,复杂推理用大模型,检索用 embedding,排序用 reranker,敏感动作再加规则和人工审核。
MoE(Mixture of Experts)这类结构也属于模型层讨论。它关注的是如何在模型内部更有效地分配计算,而不是让所有参数每次都参与同样的计算。
3. 部署层:能不能便宜、稳定、可观测地跑起来
部署层关心 inference、quantization、distillation、cache、batching、monitoring、fallback。
实验室 demo 只要能跑。产品上线要看:
- 首 token 延迟;
- 单次调用成本;
- 并发和限流;
- 失败重试;
- 输出质量监控;
- 数据安全和日志审计。
这里经常决定一个 AI 产品能不能真正落地。
三层怎么一起看
| 你遇到的问题 | 先看哪一层 |
|---|---|
| 回答质量差 | 模型层、资料层、评估集 |
| 延迟高 | 部署层、模型大小、上下文长度 |
| 成本高 | 模型分层、缓存、batching、token 控制 |
| 高峰期不稳定 | 算力层、调度、限流、fallback |
| 小任务也很贵 | 是否滥用了大模型 |
基础设施不是“买更多 GPU”这么简单。真正的难点是把算力、模型和部署策略配起来。