带登录网站模板,企业品牌推广的核心目的是,上海网站建设服务是什么,中山做网站费用引言
RankMixer——一种面向统一可扩展特征交互架构的硬件感知模型设计。RankMixer在保持Transformer高并行性的同时#xff0c;将二次复杂度的自注意力机制替换为多头令牌混合模块以提升效率。此外#xff0c;通过逐令牌前馈网络#xff0c;RankMixer实现了对异构特征子空…引言RankMixer——一种面向统一可扩展特征交互架构的硬件感知模型设计。RankMixer在保持Transformer高并行性的同时将二次复杂度的自注意力机制替换为多头令牌混合模块以提升效率。此外通过逐令牌前馈网络RankMixer实现了对异构特征子空间的独立建模与跨特征空间交互。稀疏混合专家Sparse-MoE变体将参数量提升至十亿级以获得更高投资回报率并采用动态路由策略缓解专家训练不充分与负载不均衡问题。实验表明RankMixer在万亿级生产数据集上展现出卓越的扩展能力通过替换原有低MFU的手工设计模块模型MFU从4.5%提升至45%在线排序模型参数量扩展两个数量级的同时保持近似推理延迟。现有模型问题早期模型仅通过拓宽或堆叠特征交互层进行扩展未改变模型结构这种方式带来的性能提升有限甚至可能产生负面效果。DHEN和Wukong则聚焦于设计创新的深度神经网络结构以提升扩展性能。然而在推荐领域的挑战为工业级推荐系统必须严格遵循毫秒级延迟约束并支持极高的每秒查询量QPS。因此核心在于寻找模型效能与计算效率的最佳平衡点。历史上推荐系统的排序模型架构深受CPU时代设计理念影响。这类模型通常依赖组合异构的手工交叉特征模块来提取特征交互但其核心算子在现代GPU上多受限于内存带宽而非计算能力导致GPU并行效率低下模型浮点运算利用率常低于个位数百分比。此外由于CPU时代模型的计算成本与参数量大致成正比即便扩展定律提示激进扩参可能带来回报实践中仍难以实现理想的投入产出比。核心创新提出RankMixer架构遵循硬件感知的模型设计理念设计了多头令牌混合与逐令牌前馈网络策略以高效捕捉异构特征交互并采用动态路由策略提升RankMixer中稀疏混合专家模型的可扩展性。通过利用高模型浮点运算利用率MFU和性能优化的杠杆我们在不增加推理成本的情况下将模型参数规模扩展了70 × 70 \times70×包括提升MFU和量化技术。在万亿级别的工业推荐数据集上进行了广泛的离线与在线实验并探究了模型的扩展规律。RankMixer模型已成功部署于抖音信息流推荐排序系统实现全流量服务使活跃天数和应用使用时长分别提升0.3%和1.08%。整体架构RankMixer的整体架构包含T个输入标记这些标记经过L个连续的RankMixer块处理随后接一个输出池化操作。每个RankMixer块包含两个主要组件(1) 多头令牌混合层以及(2) 逐令牌前馈网络层如图所示。首先输入向量e i n p u t \mathbf{e}_{\mathrm{input}}einput被切分为T个特征令牌x 1 , x 2 , … , x T \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_Tx1,x2,…,xT每个令牌代表一个连贯的特征向量。RankMixer块通过以下方式对标记表示进行L层迭代优化S n − 1 L N ( T o k e n M i x i n g ( X n − 1 ) X n − 1 ) , X n LN ( PFFN ( S n − 1 ) S n − 1 ) , (1) \begin{array}{l} \mathrm {S} _ {n - 1} \mathrm {L N} (\text {T o k e n M i x i n g} (\mathrm {X} _ {n - 1}) \mathrm {X} _ {n - 1}), \\ \mathrm {X} _ {n} \operatorname {L N} \left(\operatorname {P F F N} \left(\mathrm {S} _ {n - 1}\right) \mathrm {S} _ {n - 1}\right), \tag {1} \\ \end{array}Sn−1LN(T o k e n M i x i n g(Xn−1)Xn−1),XnLN(PFFN(Sn−1)Sn−1),(1)其中L N ( ⋅ ) \mathrm{LN}(\cdot)LN(⋅)表示层归一化函数TokenMixing(⋅ \cdot⋅) 与 PFFN(⋅ \cdot⋅) 分别为多头令牌混合模块与逐令牌前馈网络模块X n ∈ R T × D \mathbf{X}_n \in \mathbb{R}^{T \times D}Xn∈RT×D是第n nn个 RankMixer 块的输出X 0 ∈ R T × D \mathbf{X}_0 \in \mathbb{R}^{T \times D}X0∈RT×D由x 1 , x 2 , … , x T \mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_Tx1,x2,…,xT堆叠而成D DD为模型的隐藏维度。输出表示o o u t p u t \mathbf{o}_{\mathrm{output}}ooutput源自最终层表示X L \mathbf{X}_LXL的平均池化该表示将用于计算不同任务的预测结果。输入层和特征令牌化为了后续阶段的高效并行计算需要将所有特征的嵌入向量转换为维度相同向量称为特征令牌。即Token化具体逻辑是将所有嵌入向量分组通过设定值D在每个组内划分向量对维度不够D的做映射最终生成T个D维的向量组合成RankMixer的输入Token序列。这么做的原因若每个特征做一个TokenToken越多每个Token分到的计算参数就越少导致重要特征训练不足GPU利用率低下RankMixer模块Multi-head Token Mixing为了做高效的特征交叉将每个Token令牌划分为H个头令牌x t \mathbf{x}_txt的第h hh个头记为x t h x_t^hxth[ x t ( 1 ) ∥ x t ( 2 ) ∥ … ∥ x t ( H ) ] SplitHead ( x t ) . (3) \left[ \mathbf {x} _ {t} ^ {(1)} \| \mathbf {x} _ {t} ^ {(2)} \| \dots \| \mathbf {x} _ {t} ^ {(H)} \right] \operatorname {S p l i t H e a d} \left(\mathbf {x} _ {t}\right). \tag {3}[xt(1)∥xt(2)∥…∥xt(H)]SplitHead(xt).(3)这些头部可视为将标记x t \mathbf{x}_txt投影到低维特征子空间因为推荐任务需要从不同视角进行考量。Token混合用于融合这些子空间向量以实现全局特征交互。形式上经过多头标记混合后第h hh个头部对应的第h hh个标记s h \mathbf{s}^hsh构建如下s h Concat ( x 1 h , x 2 h , … , x T h ) . (4) \mathbf {s} ^ {h} \operatorname {C o n c a t} \left(\mathbf {x} _ {1} ^ {h}, \mathbf {x} _ {2} ^ {h}, \dots , \mathbf {x} _ {T} ^ {h}\right). \tag {4}shConcat(x1h,x2h,…,xTh).(4)多头令牌混合模块的输出为S ∈ R H × T D H \mathbf{S} \in \mathbb{R}^{H \times \frac{T D}{H}}S∈RH×HTD由所有重排后的令牌s 1 , s 2 , … , s H \mathbf{s}_1, \mathbf{s}_2, \dots, \mathbf{s}_Hs1,s2,…,sH堆叠而成。本研究中论文中设定H T H THT以保持令牌混合后残差连接所需的令牌数量不变。最后的形式如下s 1 , s 2 , … , s T LN ( 令牌混合 ( x 1 , x 2 , … , x T ) ( x 1 , x 2 , … , x T ) ) (5) \mathbf {s} _ {1}, \mathbf {s} _ {2}, \dots , \mathbf {s} _ {T} \operatorname {L N} (\text {令牌混合} (\mathbf {x} _ {1}, \mathbf {x} _ {2}, \dots , \mathbf {x} _ {T}) (\mathbf {x} _ {1}, \mathbf {x} _ {2}, \dots , \mathbf {x} _ {T})) \tag {5}s1,s2,…,sTLN(令牌混合(x1,x2,…,xT)(x1,x2,…,xT))(5)为何不用自注意机制自注意力机制使用内积计算相似度默认所有Token都在同一个语义空间而在推荐系统中不同的特征可能并不在同一个语义空间中所以从使用自注意力机制带来的效果和效率方面看不如使用无参数的多头Token混合方法。Per-Token FFN实际上就是每个Token单独对应一个FFN全连接层参数独立计算保证模型在不用的特征子空间中学习多样性不会让高频字段占主导地位。且保持计算复杂度不变。Sparse-Moe在后续对Per-Token FFN做优化将每个Per-Token的稠密前馈网络替换为Sparse-Moe结构让模型在容量增长的同时计算成本大致保持不变。然而在RankMixer中传统的稀疏专家混合方案效果会下降原因在于(i) 均匀的k专家路由机制。Top-k选择对所有特征令牌一视同仁导致低信息量令牌浪费计算资源而高信息量令牌却资源不足这阻碍了模型捕捉令牌间的差异。(ii) 专家训练不足。每个令牌的前馈网络已经将参数数量乘以令牌数添加非共享专家会进一步激增专家数量导致路由高度不平衡专家训练效果不佳。RankMixer 中使用ReLU路由结合l 1 l1l1惩罚代替常见的Top-ksoftmax机制。对于令牌s i ∈ R d h s_i \in \mathbb{R}^{d_h}si∈Rdh及其第j jj个专家e i , j ( ⋅ ) e_{i,j}(\cdot)ei,j(⋅)通过路由器h ( ⋅ ) h(\cdot)h(⋅)计算G i , j ReLU ( h ( s i ) ) , v i ∑ j 1 N e G i , j e i , j ( s i ) , (10) G_{i,j} \operatorname{ReLU}\left(h\left(\mathbf{s}_{i}\right)\right), \quad \mathbf{v}_{i} \sum_{j1}^{N_{e}} G_{i,j} e_{i,j}\left(\mathbf{s}_{i}\right), \tag{10}Gi,jReLU(h(si)),vij1∑NeGi,jei,j(si),(10)其中N e N_{e}Ne表示每个词元的专家数量N t N_{t}Nt表示词元总数。ReLU路由机制将为高信息量词元激活更多专家从而提升参数效率。稀疏性通过L r e g \mathcal{L}_{\mathrm{reg}}Lreg正则项进行调控其系数λ \lambdaλ使平均激活专家比例维持在预算阈值附近L L 任务 λ L 正则 , L 正则 ∑ i 1 N t ∑ j 1 N e G i , j . (11) \mathcal {L} \mathcal {L} _ {\text {任务}} \lambda \mathcal {L} _ {\text {正则}}, \quad \mathcal {L} _ {\text {正则}} \sum_ {i 1} ^ {N _ {t}} \sum_ {j 1} ^ {N _ {e}} G _ {i, j}. \tag {11}LL任务λL正则,L正则i1∑Ntj1∑NeGi,j.(11)密集训练/稀疏推理DTSI-MoE部分采用两个路由器h t r a i n h_{\mathrm{train}}htrain和h i n f e r h_{\mathrm{infer}}hinfer且正则化损失L r e g \mathcal{L}_{\mathrm{reg}}Lreg仅作用于h i n f e r h_{\mathrm{infer}}hinfer。训练期间h t r a i n h_{\mathrm{train}}htrain与h i n f e r h_{\mathrm{infer}}hinfer同步更新而推理阶段仅使用h i n f e r h_{\mathrm{infer}}hinfer。该方法使专家模型在降低推理成本的同时避免了训练不足的问题。本质上是低成本扩大模型参数的模型。实验、消融、在线略具体参考论文 https://arxiv.org/abs/2507.15551