中国互联网站建设中国网站开发-宁德市网站建设公司-Seo优化

中国互联网站建设,中国网站开发,仿制网站的后台,深圳网站设计灵点网络品牌近年来#xff0c;大语言模型#xff08;LLM#xff09;的发展仿佛陷入了一场“参数军备竞赛”#xff1a;参数规模从百亿、千亿#xff0c;一路飙升至万亿级别。模型规模不断膨胀#xff0c;效果虽有所提升#xff0c;但推理成本与微调训练成本也水涨船高#xff0c;让…近年来大语言模型LLM的发展仿佛陷入了一场“参数军备竞赛”参数规模从百亿、千亿一路飙升至万亿级别。模型规模不断膨胀效果虽有所提升但推理成本与微调训练成本也水涨船高让众多企业与开发者望而却步。正因如此业界开始重新关注一个曾被忽视的方向——小语言模型SLM。它们参数量小、推理速度快、部署成本低若能在能力上逼近大模型无疑将成为推动 AI 普惠落地的关键力量。近日Boss 直聘南北阁大模型实验室Nanbeige LLM Lab发布了一项令人瞩目的新成果Nanbeige4-3B。这款仅 30 亿参数的小模型正在实践探索小规模参数下的能力上限。整体介绍在预训练阶段Nanbeige4-3B 使用 23T tokens 进行训练通过设计 Hybrid 数据筛选体系实现精准的质量判别并采用细粒度 WSD 调度器使高质量数据发挥更大作用。在后训练中Nanbeige4-3B 使用了 3000w 高质量指令进行微调结合多阶段 RL 训练从而在多个维度上都有良好表现。在此基础上结合思维链推敲进化、大规模工具调用环境合成、多粒度蒸馏算法等创新手段来进一步拔高效果。在与通义千问 Qwen3 系列模型的横向对比中Nanbeige4-3B 不仅显著超越同体量的 Qwen3-4B 和 Qwen3-8B还在多项关键指标上媲美更大规模的 Qwen 系列模型。在 AIME、GPQA 等高难度数学与科学推理任务上Nanbeige4-3B 超越了 Qwen3-32B 与 Qwen3-30B-A3B展现出卓越的复杂推理能力。除了解题能力强在工具调用与人类偏好对齐等实用能力评测中Nanbeige4-3B 同样表现抢眼。其中BFCl-V4工具调用评测基准上得分比 Qwen3-32B 和 Qwen3-30B-A3B 高出 10% 以上。在 Arena-Hard-V2 人类偏好对齐榜单上其表现与 Qwen3-30B-A3B 相当。更令人惊喜的是在 2025 年 11 月2511WritingBench 大模型写作能力榜单中Nanbeige4-3B 在包含 54 个开源与闭源模型的激烈竞争中凭借仅 3B 参数斩获第 11 名的成绩多个场景的创作能力可比肩 DeepSeek-R1-0528 等千亿级大尺寸模型。南北阁实验室此次开源再度印证通过数据与算法的极致优化小模型也能爆发出超越其参数体量的潜力。Nanbeige4-3B 正在为社区树立“轻量级旗舰”的新范式。接下来我们将剖析 Nanbeige4-3B 在预训练与后训练阶段的关键技术细节。预训练Nanbeige4-3B 在构建预训练配方时聚焦两个核心问题进行优化如何科学、精准地筛选高质量训练数据并有效剔除低质量内容。如何设计合理的数据配比策略与调度机制使高质量数据发挥最大效用。2.1 Hybrid 质量筛选体系为了精准地评价每一条预训练数据的质量好坏我们构建了一套 Hybrid 质量筛选体系通过“基于质量标签的内在属性”与“基于检索召回的外部对齐”两个维度综合进行评价。在质量标签维度我们设计了含 20 个标签如知识密度、推理密度等的质量标签体系通过大尺寸模型标注与小尺寸模型高效蒸馏相结合的方式对全部原始语料进行 0–9 的细粒度评分并据此加权排序保留高分样本、过滤低质内容。在检索召回维度我们建立了一个支持百亿级混合检索文本向量的数据库并基于预定义的高质量可靠来源种子集对全量语料计算相似度。实验表明在质量标签筛选的基础上叠加检索召回机制能够更精准筛选出对模型效果更具贡献的高质量样本。通过这套内外结合的筛选机制我们从数十 Ttokens 的原始语料中淘选出 12.5T tokens 高质量数据并进一步对其中 6.5T tokens 高分数据进行多轮上采样最终构建出 23T tokens 的训练语料库。2.2 细粒度 WSD Scheduler高质量数据是能力的基石高效调度策略是释放潜力的引擎。为此Nanbeige4-3B 提出一种细粒度 Warmup-Stable-DecayFine-Grained WSD调度器。具体地我们在恒定学习率阶段动态调整数据配比训练前期侧重语料多样性以夯实基础能力后期则逐步聚焦于更高质量的数据从而让高质量数据的价值得到更充分的利用。在 1B 参数模型训练相同 1T tokens 的小规模验证实验中FG-WSD 调度策略相比传统 WSD 调度策略在多个任务上提升显著。在 Nanbeige4-3B 的完整训练中该调度器扩展为四个阶段Warmup0.1T tokens、多样性稳定阶段12.4T、高质量稳定阶段6.5T和衰减阶段4T。在衰减阶段中结合 ABFAdjusting Base Frequency方法将上下文长度扩展至 64K确保论文、代码库和思维链等不被截断实现完整训练。2.3 效果评测为客观评估 Base 模型的潜力我们采用 Post-SFT 评测范式即对 Nanbeige4-3B 与其他开源 Base 模型施加相同的微调SFT流程随后在下游任务上对比微调后模型的效果。鉴于实际应用场景中通常不会直接使用 Base 模型进行推理而大多是部署经过微调的模型因此该评测方式相比传统的 Base 模型 few-shot 评估更能科学、真实地反映 Base 模型的能力与下游应用的潜力。在多组 SFT 实验中Nanbeige4-3B 均展现出显著优势在数学、科学、代码等多个核心 benchmark 上不仅大幅超越 Qwen3-4B-Base甚至优于更大规模的 Qwen3-8B-Base充分验证了其预训练阶段的数据与调度策略的有效性。后训练预训练中Nanbeige4-3B 构建了坚实的知识基础为充分激发其推理能力以及在各类任务上的表现我们设计了一套四阶段递进式后训练流程。从 Cold-Start SFT 建立基础推理能力到 Overall SFT 拓展多任务泛化性继而通过 Dual-Level Preference Distillation 注入强模型思维模式缩小了小模型和大模型之间能力差距最终以 Multi-Stage Reinforcement Learning进一步提升效果。3.1 Cold-Start SFT在 Base 模型之上我们使用收集的 3000 万条高质量的数学、科学与代码样本进行 Cold-Start SFT其中数学推理占 50%、科学推理占 30%、代码任务占 20%。与许多只依赖几十万条指令的做法不同我们发现在多样性与质量均有所保证的前提下指令规模持续扩展仍能带来显著收益。如图所示当 SFT 数据从 50 万增长到 3000 万时模型在 AIME 2025 和 GPQA-Diamond 等任务上的表现持续提升。此外全链路实验表明Nanbeige4-3B 在 Cold-Start SFT 阶段采用的 “Scaling SFT Instructions” 策略在后续阶段持续引入更优的数据与训练策略时并不会阻碍模型效果的持续提升。3.2 Overall SFT在 Cold-Start SFT 阶段赋予模型较强的数理方面的推理能力后我们引入 Overall SFT 阶段旨在提升模型在人类偏好对齐、工具调用等更多维度的综合能力。在人类偏好对齐方面为我们创新提出推敲式生成思维链重构的范式来构建高质量回复。推敲式生成Deliberative Generation针对每条指令系统自动生成一个多维度评估清单如正确性、完整性、可执行性等并调用多个教师模型生成候选答案。随后一个专用评估模型对所有候选进行交叉打分指出具体错误、缺失步骤和优化建议。在“生成 → 批评 → 修订”的闭环中持续打磨输出质量。思维链重构CoT Reconstruction经过多轮推敲后的答案虽更准确但原始推理路径常被打乱难以作为有效监督信号。为此我们额外训练了一个 Chain-Completion 模型它以“指令最终答案”为输入先生成一个简洁的推理摘要再据此反向还原出一条结构清晰、逻辑连贯、与答案严格对齐的完整思维链。实验发现这种推敲式生成思维链重构的数据构造方法相比于直接拒绝采样在 Arena-Hard-v2 人类偏好对齐榜单上可提升 16%并且不会对其他能力维度造成负面影响。此外在工具调用方面为解决环境数量难以 scaling 的挑战我们采用 multi-agent 数据合成策略使用 LLM 分别扮演用户-助手-环境结合多维度数据筛选保证了环境与指令的多样性以及回复的质量。3.3 蒸馏经过两阶段 SFT 后模型在各类任务上建立了较好的推理能力为进一步提升效果我们使用 Nanbeige 系列旗舰模型 Nanbeige3.5-Pro 对 Nanbeige4-3B 进行蒸馏。为充分将大模型的能力有效迁移到小模型我们一方面在数据层面精确筛选出具有多样区分度的正负 pair另一方面在 loss 设计上进行创新提出一种联合优化 token 级与 sequence 级分布对齐的 DPDDual-Leval Preference Distillation算法。Token 级对齐方面在正样本上学生模型逐 token 模仿教师的输出分布在负样本上引入教师对错误路径的概率引导帮助模型学会识别并修正自身错误。Sequence 级对齐方面借鉴 DPO 损失函数设计的思想显式拉大正负样本间的偏好得分差距让模型学会区分高低质量回复。DPD 方法为 Nanbeige4-3B 的多个评测维度带来显著提升AIME 8%、GPQA 10%、BFCL-V4 30%成功“把小模型训大”同时又没有破坏模型的熵为RL阶段保留了进一步提升空间。3.4 RL我们采用分阶段、分领域的 RL 策略每个阶段聚焦一类核心能力。阶段一中我们重点优化在高难度数学与科学问题上的表现并引入工具增强的 verifier克服符号与表达多样性等问题来提供精确 reward。阶段二中我们通过多种数据合成手段结合代码沙箱验证来优化模型代码编程能力。阶段三中为提升写作与开放问答等人类偏好对齐任务上的表现我们首先专项优化 reward model。该模型不但计算高效仅用数个 token 即可输出可靠偏好信号且对 reward hacking 具备强鲁棒性引导模型学习“实质优质”而非“表面合规”的输出。实验表明通过结合动态数据过滤机制确保每个阶段训练始终作用模型“能力边缘”的题目分阶段的训练方式要优于分别“多阶段并行训练模型融合“以及”数据混合单阶段训练“的方式。3.5 效果评测为验证 Nanbeige4-3B 是否真正具备“以小搏大”的能力我们在评测中不仅与同规模开源模型如 Qwen3-4B、Qwen3-8B作为基线还引入了参数量显著更大的 Qwen3-14B、Qwen3-32B 以及 Qwen3-30B-A3B 用来对比。在高难度数学推理任务 AIME 2024 与 AIME 2025 上Nanbeige4-3B 分别取得 90.4 与 85.6 的得分超越 Qwen3-32B81.4 / 72.9和 Qwen3-30B-A3B89.2 / 85.0刷新了 32B 以下模型的 SOTA展现出优秀的数学推理能力。在科学领域Nanbeige4-3B 在 GPQA-Diamond 任务上达到 82.2 分显著高于 Qwen3-32B68.7和 Qwen3-30B-A3B73.4。在工具调用基准 BFCL-V4 上Nanbeige4-3B 成为当前开源模型中工具调用能力最强的轻量级选手。在 ArenaHard-V2 评测中模型参数规模通常对性能影响显著例如 Qwen3-4B、Qwen3-8B 与 Qwen3-30B-A3B 之间的差距达 20 分。尽管如此Nanbeige4-3B 仍做到以 60.0 分的成绩与 Qwen3-30B-A3B 并驾齐驱展现出与大模型相当的人类偏好对齐能力。资源下载与论文Nanbeige4-3B 的 Base 模型、Thinking 模型、以及技术报告已完全开源欢迎下载。Base模型https://huggingface.co/Nanbeige/Nanbeige4-3B-BaseThinking模型https://huggingface.co/Nanbeige/Nanbeige4-3B-Thinking-2511技术报告https://arxiv.org/pdf/2512.06266作者团队Nanbeige LLM Lab, Boss直聘联系方式nanbeigekanzhun.com预训练与后训练各方向持续招募中欢迎加入更多阅读#投稿通道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

中国互联网站建设中国网站开发

网站获取访客从化区建设网站

免费做爱视频网站如何看访问网站的dns

dw自己做网站需要什么意思网站预约挂号怎么做

新北建设局网站建网站详细步骤

模拟装修效果的软件手机网站优化怎么做

企业品牌网站源码saas网站建设

中国互联网站建设中国网站开发

网站获取访客从化区建设网站

免费做 爱视频网站如何看访问网站的dns

dw自己做网站需要什么意思网站预约挂号怎么做

新北建设局网站建网站详细步骤

模拟装修效果的软件手机网站优化怎么做

企业品牌网站源码saas网站建设

免费做爱视频网站如何看访问网站的dns