RAG
RAG 是检索增强生成,让模型回答前先检索外部资料,再结合资料生成答案。
RAG
RAG 是 Retrieval-Augmented Generation,检索增强生成。它让模型回答前先从外部资料中检索相关内容,再把检索结果放进上下文生成答案。
图片说明:原创流程图,展示问题、检索、上下文注入、生成和来源检查。
一句话先记住
RAG 不是让模型“记住更多”,而是让模型“回答前先看资料”。资料找得准,回答才更有根据。
先记住这 3 点
解决资料不足
当模型不知道你的内部文档、最新信息或专有知识时,RAG 通常比直接改提示更有效。
检索质量决定上限
切分、索引、召回和排序都会影响最终答案。
不能消灭幻觉
RAG 能降低无依据回答,但错误资料、漏检和误读仍会带来错误。
给普通人的解释
你可以把 RAG 想成“开卷答题”。普通 LLM 像凭记忆回答;RAG 则先从指定资料库里找几段最相关材料,再要求模型根据这些材料回答。
这对企业知识库、客服、政策问答、研究资料整理很有用。关键是:资料库要可靠,检索要找对,回答还要能指出依据。否则 RAG 只是把错误资料包装成更像真的答案。
一个最短 RAG 流程
把文档切成合适片段,并记录来源。
把片段转成 Embedding,放入向量数据库或搜索索引。
用户提问时检索相关片段。
把片段和问题一起交给 LLM 生成答案。
检查答案是否真的由检索片段支持。
和相近概念的区别
RAG 重点是外接资料,适合回答最新、内部、可更新的知识。
微调重点是改变模型稳定行为或任务格式,不是把所有知识塞进模型。
长上下文可以放更多资料,但仍需要排序、去噪和引用检查。