免费的黄冈网站有哪些平台游戏软件上海商业网站建设费用
免费的黄冈网站有哪些平台游戏软件,上海商业网站建设费用,网站开发搜索功能怎么实现,wordpress登录 不了本文针对政务、金融等垂直领域RAG系统检索不准确的问题#xff0c;提出通过微调Embedding模型解决。详细介绍了使用SentenceTransformers框架#xff0c;结合硬负例训练策略#xff0c;实现3090单卡微调的全流程。通过自动数据挖掘、梯度检查点等优化技术#…本文针对政务、金融等垂直领域RAG系统检索不准确的问题提出通过微调Embedding模型解决。详细介绍了使用SentenceTransformers框架结合硬负例训练策略实现3090单卡微调的全流程。通过自动数据挖掘、梯度检查点等优化技术显著提升模型对行业术语的区分能力使RAG系统检索准确率提升20%-30%为解决一本正经胡说八道问题提供了实用方案。在过去的一段时间我们在公众号里一起学习了 RAG的搭建、向量数据库的选型、甚至是 Rerank重排模型的使用。但最近很多做政务、金融、医疗等垂直领域的朋友在后台私信我同一个痛点“云枢我的 RAG 系统搭好了Prompt 也写出花儿了上了 Rerank但效果还是差点意思。用户问‘人才购房补贴’它搜出来全是‘人才公寓管理’或者‘购房落户政策’。关键词都沾边但意思完全不对大模型拿不到对的参考资料只能在那一本正经地胡说八道。”这就像你问路“去火车站怎么走”它告诉你“火车站的炒面很好吃”。它懂了但没完全懂。问题出在哪Embedding 模型向量化模型不懂你的“行业黑话”。今天云枢不教大家怎么“调 Prompt”我们来点硬核的——手把手教你微调一个专属的 Embedding 模型从根源上解决“搜不准”的问题RAG 优化的“金字塔”我们在哪一层在开始动手前我们需要知道“模型微调”在 RAG 优化体系里的地位。RAG 的优化手段其实是一个金字塔•Level 1Prompt 工程最简单优化提问技巧让大模型更好理解。•Level 2切片策略 (Chunking)把文档切得更科学不切断语义。•Level 3混合检索 (Hybrid Search)向量检索 关键词检索 (BM25) 互补。•Level 4重排 (Rerank)在检索回来的结果里用高精度模型再排一次序。•Level 5Embedding 微调 (Fine-tuning)最硬核直接改造模型的“大脑”让它重新理解什么是“相似”什么是“无关”。如果前 4 层你都做过了效果还是遇到瓶颈那么微调 Embedding 就是你突破天花板的唯一路径。技术选型为什么不用“傻瓜式”工具市面上有很多微调工具为什么我们要选择写代码•AutoTrain / LlamaIndex / ms-swift这些都是非常优秀的“开箱即用”工具Wrapper。它们像傻瓜相机封装得很好一行命令就能跑。但缺点是是个黑盒——你不知道它底层用了什么 Loss不知道它是怎么处理数据的一旦效果不好你根本无从调试。•SentenceTransformers这是 PyTorch 生态下 Embedding 训练的事实标准相当于摄影师手里的单反相机。 •透明你能看到每一行代码在干什么。 •强大完美支持 BGE、Jina 等主流模型。 •可控显存不够调负例不够加云枢主张对于新手第一次微调一定要用 SentenceTransformers 写一遍代码。只有理解了底层的“对比学习”原理以后你才能驾驭那些自动化工具。核心原理大模型不懂“硬负例”很多教程微调完效果不好是因为忽略了**“硬负例”Hard Negative**。这是本篇文章最核心的概念大家一定要懂。教模型认“苹果”有两种教法1.普通教学Easy Negative拿个汽车告诉它“这不是苹果”。这太简单了模型闭着眼都能分清学不到东西。2.硬核教学Hard Negative拿个绿色的皮球告诉它“这也是圆的、绿的但它不是苹果”。在 Embedding 微调中•简单负例随机抽一篇不相关的文档。•**硬负例****“看起来很像关键词重合度很高但语义完全错误”**的文档。比如搜“购房补贴”BM25可能会搜出“购房落户”或“租房补贴”。它们字面极像最容易迷惑模型。我们就要把这些作为负例喂给模型强迫它学会区分“落户”和“补贴”的细微差别。云枢的实战结论如果不加硬负例微调效果可能只能提升 5%加上硬负例提升能达到 20%-30%实战环节3090 单卡微调全流程第一步数据准备LLM BM25 自动挖掘我们做垂直领域通常没有现成的训练数据。千万别人工标注那是上一代 AI 做的事。我们要用魔法打败魔法。我为大家设计了一条自动化数据流水线1.出题人 (LLM)让大模型阅读文档生成问题。2.找茬人 (BM25)用传统的关键词搜索 (BM25) 去库里搜这个问题。•为什么要用 BM25因为 BM25 只看字面匹配不看语义。它搜出来的错题通常字面重合度极高比如搜“补贴”出“罚款”。这正是我们梦寐以求的“硬负例”(注数据生成脚本较长请在文末获取完整代码仓库这里只展示核心逻辑)def main(): # 1. 加载所有文件并切片 print(1. 正在扫描目录并加载数据...) if not os.path.exists(INPUT_DIR): print(f目录不存在: {INPUT_DIR}) return corpus load_data_from_dir(INPUT_DIR) print(f数据加载完成共切分为 {len(corpus)} 个片段。) if len(corpus) 0: print(未找到有效文本数据请检查目录。) return # 2. 构建 BM25 索引全局索引 print(2. 正在构建 BM25 索引用于硬负例挖掘...) # 对中文进行分词 tokenized_corpus [list(jieba.cut(doc)) for doc in corpus] bm25 BM25Okapi(tokenized_corpus) dataset [] # 3. 开始循环生成 print(3. 开始生成问题并挖掘负例...) # 限制处理数量用于测试正式跑可以去掉 [:10] for idx, doc_text in tqdm(enumerate(corpus), totallen(corpus), descGenerating): # 生成正例 (Query) queries generate_queries(doc_text) for query in queries: # 挖掘负例 (Hard Negatives) tokenized_query list(jieba.cut(query)) scores bm25.get_scores(tokenized_query) top_n_indexes sorted(range(len(scores)), keylambda i: scores[i], reverseTrue)[:BM25_TOP_K] hard_negatives [] for neg_idx in top_n_indexes: # 排除掉原文片段自己 if neg_idx idx or corpus[neg_idx] doc_text: continue hard_negatives.append(corpus[neg_idx]) if len(hard_negatives) NEG_COUNT: break # 补齐负例 retry_count 0 while len(hard_negatives) NEG_COUNT and retry_count 20: random_neg random.choice(corpus) if random_neg ! doc_text and random_neg not in hard_negatives: hard_negatives.append(random_neg) retry_count 1 # 组装数据 data_item { query: query, pos: [doc_text], neg: hard_negatives } dataset.append(data_item) # 4. 保存文件 print(f4. 正在保存数据到 {OUTPUT_FILE}...) with open(OUTPUT_FILE, w, encodingutf-8) as f: for item in dataset: f.write(json.dumps(item, ensure_asciiFalse) \n) print(f任务完成训练数据已生成。)跑完这个脚本你就得到了一份高质量的、带有“陷阱”的训练数据格式如下{ query: 高层次人才购房补贴标准是多少, pos: [给予A类人才最高300万元购房补贴...], neg: [ 大学生租房补贴标准为每月..., // 硬负例1租房补贴 人才购房落户需满足以下条件... // 硬负例2购房落户 ] }第二步模型微调解决显存爆炸数据有了开始训练。这里演示使用的是单张 24G 显存的 3090一跑代码就 OOM。 因为带了硬负例后模型一次要处理1(问) 1(正) 4(负) 6 个句子为了让单卡能跑云枢使用了**“单卡黄金配置”**主要靠三招1.梯度检查点 (Gradient Checkpointing)用算力换显存必开。2.混合精度 (FP16)显存占用减半。3.梯度累积既然显存小我们就把 Batch Size 设小比如 4多跑几步再更新参数。核心代码from sentence_transformers import SentenceTransformer, losses from torch.utils.data import DataLoader MODEL_NAME BAAI/bge-large-zh-v1.5 # 选个好点的中文基座 BATCH_SIZE 4 # 3090 单卡建议 4-6 MAX_SEQ_LENGTH 256 # 垂直领域 256 长度足够非常省显存 def train(): # 加载模型 model SentenceTransformer(MODEL_NAME) model.max_seq_length MAX_SEQ_LENGTH # 开启梯度检查点防 OOM 的关键 model.gradient_checkpointing_enable() # 准备数据 train_dataloader DataLoader(train_examples, shuffleTrue, batch_sizeBATCH_SIZE) # 定义损失函数MultipleNegativesRankingLoss # 会自动把 batch 内的其他数据也作为负例极其高效 train_loss losses.MultipleNegativesRankingLoss(modelmodel, scale20.0) # 4. 开始训练 model.fit( train_objectives[(train_dataloader, train_loss)], epochs3, output_path./output_model_final, save_best_modelTrue, use_ampTrue # 开启 FP16 混合精度 ) if __name__ __main__: train()第三步效果验证微调完到底有没有用我们写个对比脚本让基座模型和微调模型同台竞技。核心逻辑# 加载两个模型 base_model SentenceTransformer(BAAI/bge-large-zh-v1.5) ft_model SentenceTransformer(./output_model_final) # 计算 Query 与 正例/负例 的相似度 q_emb model.encode(query) p_emb model.encode(pos_doc) n_emb model.encode(neg_doc) print(f正例得分: {util.cos_sim(q_emb, p_emb)}) print(f负例得分: {util.cos_sim(q_emb, n_emb)})**真实运行结果政务场景**Case 1用户提问“高层次人才购房补贴”模型正例得分 (购房补贴)负例得分 (购房落户/租房补贴)区分度 (正 - 负)评价微调前0.910.890.02❌ 极差几乎分不清容易搜错微调后0.820.350.47✅ 完美一眼就能把干扰项踢开解惑为什么微调后正例得分变低了细心的朋友会发现微调前正例是 0.91微调后怎么变成 0.82 了模型变傻了吗恰恰相反这是模型变聪明的表现。•基座模型像个近视眼看谁都像好人所以给分都虚高0.91 vs 0.89。•微调模型戴上了眼镜看清了负例其实是“坏人”把它狠狠推远0.89 - 0.35。为了拉开这个距离正例的绝对分数自然会回归理性0.91 - 0.82。记住RAG 要的是排序Ranking只要区分度Gap拉大了微调就是成功的总结通过今天这篇文章我们没有使用任何黑盒工具而是从数据挖掘原理到代码落地彻底跑通了 Embedding 微调。你会发现当你把“硬负例”喂给模型后它仿佛瞬间开窍了能精准识别那些曾经让它困惑的“行业黑话”。AI时代未来的就业机会在哪里答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具到自然语言处理、计算机视觉、多模态等核心领域技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。掌握大模型技能就是把握高薪未来。那么普通人如何抓住大模型风口AI技术的普及对个人能力提出了新的要求在AI时代持续学习和适应新技术变得尤为重要。无论是企业还是个人都需要不断更新知识体系提升与AI协作的能力以适应不断变化的工作环境。因此这里给大家整理了一份《2025最新大模型全套学习资源》包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等带你从零基础入门到精通快速掌握大模型技术由于篇幅有限有需要的小伙伴可以扫码获取1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。5. 大模型行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。为什么大家都在学AI大模型随着AI技术的发展企业对人才的需求从“单一技术”转向 “AI行业”双背景。企业对人才的需求从“单一技术”转向 “AI行业”双背景。金融AI、制造AI、医疗AI等跨界岗位薪资涨幅达30%-50%。同时很多人面临优化裁员近期科技巨头英特尔裁员2万人传统岗位不断缩减因此转行AI势在必行这些资料有用吗这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。大模型全套学习资料已整理打包有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】