三个层次:算力、模型、部署

从计算资源、模型底座和部署效率三层理解 AI 基础设施。

AI 基础设施可以先拆成三层:算力、模型、部署。很多成本和性能问题,都是这三层没有分清。

1. 算力层:训练和推理的物理底座

算力层关心 GPU、TPU、网络、显存、存储和集群调度。

训练大模型需要大量并行计算。推理虽然不一定像训练那么重,但用户量上来后,同样会被显存、吞吐、延迟和并发限制住。

常见问题:

  • 模型太大,单卡放不下;
  • 上下文太长,显存占用暴涨;
  • 并发上来后,延迟不稳定;
  • GPU 很贵,但利用率不高。

2. 模型层:能力怎么被组织和复用

模型层关心 Foundation Model、MoE、embedding model、reranker、small model 等选择。

不是所有任务都该上最强模型。一个成熟系统经常会分层:简单分类用小模型,复杂推理用大模型,检索用 embedding,排序用 reranker,敏感动作再加规则和人工审核。

MoE(Mixture of Experts)这类结构也属于模型层讨论。它关注的是如何在模型内部更有效地分配计算,而不是让所有参数每次都参与同样的计算。

3. 部署层:能不能便宜、稳定、可观测地跑起来

部署层关心 inference、quantization、distillation、cache、batching、monitoring、fallback。

实验室 demo 只要能跑。产品上线要看:

  • 首 token 延迟;
  • 单次调用成本;
  • 并发和限流;
  • 失败重试;
  • 输出质量监控;
  • 数据安全和日志审计。

这里经常决定一个 AI 产品能不能真正落地。

三层怎么一起看

你遇到的问题先看哪一层
回答质量差模型层、资料层、评估集
延迟高部署层、模型大小、上下文长度
成本高模型分层、缓存、batching、token 控制
高峰期不稳定算力层、调度、限流、fallback
小任务也很贵是否滥用了大模型

基础设施不是“买更多 GPU”这么简单。真正的难点是把算力、模型和部署策略配起来。