关键术语地图

用一张大模型与提示工程术语地图分清 prompt、上下文、RAG、embedding、向量数据库、微调、偏好优化和幻觉。

关键术语地图:大模型与提示工程

大模型应用里最常见的误判,是把所有问题都叫“提示词没写好”。实际情况粗暴得多:有的问题是任务说明不清,有的是资料缺失,有的是检索系统召回错了,有的是模型能力不够,还有的是输出偏好或安全边界没有被训练好。

这一页把 大模型与提示工程 章节里反复出现的词放到同一张地图里。读完后再去看 四类问题判断表提示词、RAG、微调怎么选常见误解,会更容易判断“该改提示词,还是该改系统”。

先把核心词摆正

术语先记住的意思主要回答的问题常见误区
LLM根据上下文生成文本、代码或结构化内容的大语言模型。模型本体能做什么,不能做什么?LLM 不是搜索引擎;它会生成看似合理但未必有证据的内容。
Token模型处理文本时使用的切分单位。为什么上下文有长度限制,为什么长输入会变贵?token 不等于自然语言里的一个词,也不等于一个汉字。
Prompt Engineering把任务、资料、约束和输出格式讲清楚的工程化方法。怎样让模型更稳定地完成已具备能力的任务?不是咒语库;不能靠漂亮措辞补上缺失事实或模型能力。
上下文(context)本次调用里模型能看到的提示、资料、历史、工具结果和限制。模型回答时到底参考了哪些信息?上下文窗口变长不等于所有信息都会被正确使用。
RAG先检索外部资料,再让模型基于资料生成回答。缺最新资料、私有资料或可核查证据时怎么办?RAG 不是“把文档塞进去”;召回、切片、引用和验证都要做。
Embedding把文本、图片或对象转成向量表示,用来计算相似性。系统怎样按语义而不是关键词找资料?相似不等于正确;embedding 只能帮助召回,不能替代事实判断。
Vector Database存储和检索大量向量的数据库或检索系统。文档库、知识库、客服库怎样被语义检索?有向量库不等于有知识库;垃圾切片会检索出垃圾答案。
Fine-Tuning在已有模型基础上继续训练,让行为更适合特定任务或风格。什么时候需要改变模型行为,而不只是给资料?微调不适合当“知识注入万能药”,也不能保证事实最新。
偏好优化(SFT / RLHF / DPO / PPO)用示例、反馈或偏好数据塑形模型的回答风格、边界和选择。模型会答,但答得不符合人类偏好时怎么办?偏好优化不是事实校验;它更像行为训练和约束。
幻觉模型生成了缺少证据、错误或编造的内容。为什么模型会一本正经地胡说?幻觉不能只靠“别瞎编”四个字解决,需要证据、检索和验证。

按四层理解这些词

1. 任务表达层:prompt 是规格,不是魔法

提示词工程的价值,是把目标、输入、约束、输出格式和示例说清楚。它适合修复“任务不清”的问题:比如回答结构不稳定、输出格式乱、没有遵守限制、没有按角色处理资料。

如果模型本来就会做这类任务,好的 prompt 能明显降低随机游走;如果模型缺资料、缺工具或能力不够,再多“你是世界顶级专家”也只是给问题涂粉底。先读 Prompt Engineering 解决什么,再回到 四类问题判断表 做诊断。

2. 资料接入层:RAG 解决“模型看不到”的问题

RAG 的核心是把可信资料带进上下文。一个靠谱 RAG 系统至少要关心资料来源、文档切片、embedding、召回、重排、引用和答案验证。任何一环粗糙,最后都会表现成“模型又胡说了”。

普通读者判断 RAG 项目时,可以直接问四句:资料库是否可信?检索出来的片段是否真的相关?答案里的引用能不能回到原文?找不到资料时系统会不会明确说不知道?这些问题比“用了哪家向量数据库”更值钱。

3. 表示与检索层:embedding 和向量数据库不是知识本身

Embedding 让内容变成可比较的向量,向量数据库让系统可以从大量向量里快速找相似项。它们支撑语义搜索、问答资料召回、推荐和去重,但它们本身不判断答案真伪。

这层最常见的坑是把“相似”误当“正确”。用户问“退款政策例外”,系统召回了一段“退款政策总则”,看起来相关,实际可能漏掉关键限制。严肃应用会继续做重排、引用、冲突检测和人工复核,而不是把第一个相似片段直接喂给模型。

4. 行为塑形层:微调和偏好优化更重,也更难回滚

Fine-tuning 适合稳定特定格式、行业语气、分类规则或工具调用风格;偏好优化则更关注模型在多个可选回答里偏向哪一种,比如更有帮助、更安全、更符合产品边界。

它们比 prompt 和 RAG 更接近“改模型行为”,所以成本和风险也更高。先问清楚:问题是不是靠说明和资料就能解决?有没有足够高质量训练/偏好数据?改完后用什么评估证明没有把别的能力搞坏?如果这些都答不上来,贸然微调就是拿扳手敲玻璃。

一张阅读路径

大模型与提示工程18 个词

理解 LLM、Token、提示、检索增强和偏好优化。

CoT

思维链提示技术

用中间步骤提示模型进行更复杂推理的方法。

Prompt EngineeringLLMInference

DPO

直接偏好优化技术

直接用偏好数据优化模型输出倾向的训练方法。

RLHFPPOAlignment

Embedding

嵌入技术

把文本、图像等对象转换成向量表示的方法。

核心词VectorVector DatabaseRAG
阅读全文

Fine-Tuning

微调技术

在已有模型基础上用特定数据继续训练,让它适配任务或风格。

核心词Pre-trainingInstruction TuningSFT
阅读全文

GQA

图问答技术

基于图结构或图数据进行问题回答的技术方向。

RAGVector DatabaseNLP

GPO

广义策略优化技术

用于改进策略学习效率的一类优化思路。

PPORLHFReinforcement Learning

Instruction Tuning

指令调优技术

用指令和答案数据训练模型,让它更会按要求完成任务。

Fine-TuningSFTPrompt Engineering

KTO

知识迁移优化技术

用偏好或迁移信号提升模型在新任务上表现的优化思路。

DPORLHFTransfer Learning

LLM

大语言模型技术

用大量文本和参数训练、擅长语言处理与生成的模型。

核心词TransformerTokenChatGPT
阅读全文

NLP

自然语言处理技术

研究机器如何处理、理解和生成自然语言的领域。

LLMTransformerToken

PPO

近端策略优化技术

强化学习中常用的一类策略优化算法。

RLHFReinforcement LearningDPO

Prompt Engineering

提示工程技术

设计输入指令和上下文,让模型更稳定完成任务的方法。

核心词CoTFew-ShotInstruction Tuning
阅读全文

RAG

检索增强生成技术

先检索资料,再让生成模型基于资料回答的方法。

核心词EmbeddingVector DatabaseHallucination
阅读全文

RLHF

基于人类反馈的强化学习技术

用人类偏好反馈训练奖励模型或调整模型行为的方法。

PPODPOAlignment

SFT

监督微调技术

用人工整理的指令和答案对模型进行监督训练的阶段。

Fine-TuningInstruction TuningRLHF

Token

词元技术

语言模型处理文本时使用的基本计算单位。

核心词LLMTransformerPrompt Engineering
阅读全文

Transformer

Transformer 模型技术

基于注意力机制的深度学习架构,是现代大语言模型核心基础之一。

核心词AttentionMHALLMNeural Network
阅读全文

Vector Database

向量数据库技术

用于存储 Embedding 并按语义相似度检索资料的数据库系统。

核心词EmbeddingRAGPrompt EngineeringFine-Tuning
阅读全文

参考入口