常见误解

拆开提示词、RAG、向量库、微调和 Agent 的常见误解。

LLM 应用里很多坑,不是技术太深,而是概念边界没分清。下面这些误解很常见,也很容易把项目带偏。

误解 1:提示词写好就能解决大多数问题

提示词能把任务讲清楚,但不能替模型补资料、接工具、做权限控制或保证事实正确。

如果模型缺公司制度,你把提示词写成“请严格根据公司制度回答”也没用。它没有资料,只会根据通用经验猜。这个时候该做 RAG,而不是继续雕提示词。

更好的判断:

  • 任务不清:改提示词;
  • 资料缺失:做 RAG;
  • 需要计算:接工具;
  • 行为长期不稳:考虑示例库、微调或偏好优化。

误解 2:RAG 等于把文档塞给模型

RAG 不是“多塞点文本”。真正困难的是检索链路:文档是否可信、切片是否合理、能否命中、权限是否正确、答案能否引用原文。

如果检索出来的是旧文档,模型会基于旧文档认真回答。结果看起来更可信,实际更危险。

RAG 的质量要看三件事:

  • 召回:相关资料有没有被找出来;
  • 精度:找出来的是不是噪音;
  • 可核查:答案能不能回到原文。

误解 3:向量库是事实库

向量库负责相似度检索,不负责判断真假。

它能帮你找到“语义上像”的片段,但不会自动知道哪份政策最新、哪份合同作废、哪个答案经过审批。事实管理仍然要靠文档治理、版本控制、权限系统和人工审核。

把向量库当事实库,会出现一种很糟的情况:错误资料被更快、更稳定地检索出来。

误解 4:微调可以让模型记住所有业务知识

微调更适合改变模型的行为习惯,比如输出格式、领域表达、分类方式、客服语气。它不适合承载频繁变化的知识。

业务知识如果经常更新,应该放进知识库;如果需要引用,应该走 RAG;如果需要权限,应该接权限系统。

微调前先问:

  • 任务是否稳定?
  • 有没有足够好的样例?
  • 有没有评估集?
  • 这个问题是否真的不能用 RAG、提示词和工作流解决?

没有评估集就微调,基本是在凭感觉烧钱。

误解 5:Agent 就是更长的提示词

Agent 的重点不是提示词更长,而是模型能规划步骤、调用工具、读取结果、继续行动,并在必要时让人接管。

如果任务需要查资料、写文件、跑代码、发请求、复核结果,只让模型一次性生成答案不够。你需要的是工作流、工具权限、日志、回滚和评估。

Agent 做得不好,危险也更大。因为它不只是说错话,还可能执行错动作。

误解 6:换更大的模型就能省掉系统设计

更强模型能提高上限,但不能替代产品设计。

没有好资料,大模型也会编;没有权限控制,大模型也可能泄露;没有评估,大模型错了你也不知道;没有缓存和分层调用,成本会很快失控。

模型是组件,不是整个系统。

一个更稳的心法

遇到效果差,别先问“提示词怎么写”。先定位是哪一层坏了:任务、资料、工具、流程、偏好、评估。层级找对了,修法才不会离谱。