带登录网站模板企业品牌推广的核心目的是

张小明 2026/1/9 22:15:58
带登录网站模板,企业品牌推广的核心目的是,上海网站建设服务是什么,中山做网站费用引言 RankMixer——一种面向统一可扩展特征交互架构的硬件感知模型设计。RankMixer在保持Transformer高并行性的同时#xff0c;将二次复杂度的自注意力机制替换为多头令牌混合模块以提升效率。此外#xff0c;通过逐令牌前馈网络#xff0c;RankMixer实现了对异构特征子空…引言RankMixer——一种面向统一可扩展特征交互架构的硬件感知模型设计。RankMixer在保持Transformer高并行性的同时将二次复杂度的自注意力机制替换为多头令牌混合模块以提升效率。此外通过逐令牌前馈网络RankMixer实现了对异构特征子空间的独立建模与跨特征空间交互。稀疏混合专家Sparse-MoE变体将参数量提升至十亿级以获得更高投资回报率并采用动态路由策略缓解专家训练不充分与负载不均衡问题。实验表明RankMixer在万亿级生产数据集上展现出卓越的扩展能力通过替换原有低MFU的手工设计模块模型MFU从4.5%提升至45%在线排序模型参数量扩展两个数量级的同时保持近似推理延迟。现有模型问题早期模型仅通过拓宽或堆叠特征交互层进行扩展未改变模型结构这种方式带来的性能提升有限甚至可能产生负面效果。DHEN和Wukong则聚焦于设计创新的深度神经网络结构以提升扩展性能。然而在推荐领域的挑战为工业级推荐系统必须严格遵循毫秒级延迟约束并支持极高的每秒查询量QPS。因此核心在于寻找模型效能与计算效率的最佳平衡点。历史上推荐系统的排序模型架构深受CPU时代设计理念影响。这类模型通常依赖组合异构的手工交叉特征模块来提取特征交互但其核心算子在现代GPU上多受限于内存带宽而非计算能力导致GPU并行效率低下模型浮点运算利用率常低于个位数百分比。此外由于CPU时代模型的计算成本与参数量大致成正比即便扩展定律提示激进扩参可能带来回报实践中仍难以实现理想的投入产出比。核心创新提出RankMixer架构遵循硬件感知的模型设计理念设计了多头令牌混合与逐令牌前馈网络策略以高效捕捉异构特征交互并采用动态路由策略提升RankMixer中稀疏混合专家模型的可扩展性。通过利用高模型浮点运算利用率MFU和性能优化的杠杆我们在不增加推理成本的情况下将模型参数规模扩展了70 × 70 \times70×包括提升MFU和量化技术。在万亿级别的工业推荐数据集上进行了广泛的离线与在线实验并探究了模型的扩展规律。RankMixer模型已成功部署于抖音信息流推荐排序系统实现全流量服务使活跃天数和应用使用时长分别提升0.3%和1.08%。整体架构RankMixer的整体架构包含T个输入标记这些标记经过L个连续的RankMixer块处理随后接一个输出池化操作。每个RankMixer块包含两个主要组件(1) 多头令牌混合层以及(2) 逐令牌前馈网络层如图所示。首先输入向量e i n p u t \mathbf{e}_{\mathrm{input}}einput​被切分为T个特征令牌x 1 , x 2 , … , x T \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_Tx1​,x2​,…,xT​每个令牌代表一个连贯的特征向量。RankMixer块通过以下方式对标记表示进行L层迭代优化S n − 1 L N ( T o k e n M i x i n g ( X n − 1 ) X n − 1 ) , X n LN ⁡ ( PFFN ⁡ ( S n − 1 ) S n − 1 ) , (1) \begin{array}{l} \mathrm {S} _ {n - 1} \mathrm {L N} (\text {T o k e n M i x i n g} (\mathrm {X} _ {n - 1}) \mathrm {X} _ {n - 1}), \\ \mathrm {X} _ {n} \operatorname {L N} \left(\operatorname {P F F N} \left(\mathrm {S} _ {n - 1}\right) \mathrm {S} _ {n - 1}\right), \tag {1} \\ \end{array}Sn−1​LN(T o k e n M i x i n g(Xn−1​)Xn−1​),Xn​LN(PFFN(Sn−1​)Sn−1​),​(1)其中L N ( ⋅ ) \mathrm{LN}(\cdot)LN(⋅)表示层归一化函数TokenMixing(⋅ \cdot⋅) 与 PFFN(⋅ \cdot⋅) 分别为多头令牌混合模块与逐令牌前馈网络模块X n ∈ R T × D \mathbf{X}_n \in \mathbb{R}^{T \times D}Xn​∈RT×D是第n nn个 RankMixer 块的输出X 0 ∈ R T × D \mathbf{X}_0 \in \mathbb{R}^{T \times D}X0​∈RT×D由x 1 , x 2 , … , x T \mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_Tx1​,x2​,…,xT​堆叠而成D DD为模型的隐藏维度。输出表示o o u t p u t \mathbf{o}_{\mathrm{output}}ooutput​源自最终层表示X L \mathbf{X}_LXL​的平均池化该表示将用于计算不同任务的预测结果。输入层和特征令牌化为了后续阶段的高效并行计算需要将所有特征的嵌入向量转换为维度相同向量称为特征令牌。即Token化具体逻辑是将所有嵌入向量分组通过设定值D在每个组内划分向量对维度不够D的做映射最终生成T个D维的向量组合成RankMixer的输入Token序列。这么做的原因若每个特征做一个TokenToken越多每个Token分到的计算参数就越少导致重要特征训练不足GPU利用率低下RankMixer模块Multi-head Token Mixing为了做高效的特征交叉将每个Token令牌划分为H个头令牌x t \mathbf{x}_txt​的第h hh个头记为x t h x_t^hxth​[ x t ( 1 ) ∥ x t ( 2 ) ∥ … ∥ x t ( H ) ] SplitHead ⁡ ( x t ) . (3) \left[ \mathbf {x} _ {t} ^ {(1)} \| \mathbf {x} _ {t} ^ {(2)} \| \dots \| \mathbf {x} _ {t} ^ {(H)} \right] \operatorname {S p l i t H e a d} \left(\mathbf {x} _ {t}\right). \tag {3}[xt(1)​∥xt(2)​∥…∥xt(H)​]SplitHead(xt​).(3)这些头部可视为将标记x t \mathbf{x}_txt​投影到低维特征子空间因为推荐任务需要从不同视角进行考量。Token混合用于融合这些子空间向量以实现全局特征交互。形式上经过多头标记混合后第h hh个头部对应的第h hh个标记s h \mathbf{s}^hsh构建如下s h Concat ⁡ ( x 1 h , x 2 h , … , x T h ) . (4) \mathbf {s} ^ {h} \operatorname {C o n c a t} \left(\mathbf {x} _ {1} ^ {h}, \mathbf {x} _ {2} ^ {h}, \dots , \mathbf {x} _ {T} ^ {h}\right). \tag {4}shConcat(x1h​,x2h​,…,xTh​).(4)多头令牌混合模块的输出为S ∈ R H × T D H \mathbf{S} \in \mathbb{R}^{H \times \frac{T D}{H}}S∈RH×HTD​由所有重排后的令牌s 1 , s 2 , … , s H \mathbf{s}_1, \mathbf{s}_2, \dots, \mathbf{s}_Hs1​,s2​,…,sH​堆叠而成。本研究中论文中设定H T H THT以保持令牌混合后残差连接所需的令牌数量不变。最后的形式如下s 1 , s 2 , … , s T LN ⁡ ( 令牌混合 ( x 1 , x 2 , … , x T ) ( x 1 , x 2 , … , x T ) ) (5) \mathbf {s} _ {1}, \mathbf {s} _ {2}, \dots , \mathbf {s} _ {T} \operatorname {L N} (\text {令牌混合} (\mathbf {x} _ {1}, \mathbf {x} _ {2}, \dots , \mathbf {x} _ {T}) (\mathbf {x} _ {1}, \mathbf {x} _ {2}, \dots , \mathbf {x} _ {T})) \tag {5}s1​,s2​,…,sT​LN(令牌混合(x1​,x2​,…,xT​)(x1​,x2​,…,xT​))(5)为何不用自注意机制自注意力机制使用内积计算相似度默认所有Token都在同一个语义空间而在推荐系统中不同的特征可能并不在同一个语义空间中所以从使用自注意力机制带来的效果和效率方面看不如使用无参数的多头Token混合方法。Per-Token FFN实际上就是每个Token单独对应一个FFN全连接层参数独立计算保证模型在不用的特征子空间中学习多样性不会让高频字段占主导地位。且保持计算复杂度不变。Sparse-Moe在后续对Per-Token FFN做优化将每个Per-Token的稠密前馈网络替换为Sparse-Moe结构让模型在容量增长的同时计算成本大致保持不变。然而在RankMixer中传统的稀疏专家混合方案效果会下降原因在于(i) 均匀的k专家路由机制。Top-k选择对所有特征令牌一视同仁导致低信息量令牌浪费计算资源而高信息量令牌却资源不足这阻碍了模型捕捉令牌间的差异。(ii) 专家训练不足。每个令牌的前馈网络已经将参数数量乘以令牌数添加非共享专家会进一步激增专家数量导致路由高度不平衡专家训练效果不佳。RankMixer 中使用ReLU路由结合l 1 l1l1惩罚代替常见的Top-ksoftmax机制。对于令牌s i ∈ R d h s_i \in \mathbb{R}^{d_h}si​∈Rdh​及其第j jj个专家e i , j ( ⋅ ) e_{i,j}(\cdot)ei,j​(⋅)通过路由器h ( ⋅ ) h(\cdot)h(⋅)计算G i , j ReLU ⁡ ( h ( s i ) ) , v i ∑ j 1 N e G i , j e i , j ( s i ) , (10) G_{i,j} \operatorname{ReLU}\left(h\left(\mathbf{s}_{i}\right)\right), \quad \mathbf{v}_{i} \sum_{j1}^{N_{e}} G_{i,j} e_{i,j}\left(\mathbf{s}_{i}\right), \tag{10}Gi,j​ReLU(h(si​)),vi​j1∑Ne​​Gi,j​ei,j​(si​),(10)其中N e N_{e}Ne​表示每个词元的专家数量N t N_{t}Nt​表示词元总数。ReLU路由机制将为高信息量词元激活更多专家从而提升参数效率。稀疏性通过L r e g \mathcal{L}_{\mathrm{reg}}Lreg​正则项进行调控其系数λ \lambdaλ使平均激活专家比例维持在预算阈值附近L L 任务 λ L 正则 , L 正则 ∑ i 1 N t ∑ j 1 N e G i , j . (11) \mathcal {L} \mathcal {L} _ {\text {任务}} \lambda \mathcal {L} _ {\text {正则}}, \quad \mathcal {L} _ {\text {正则}} \sum_ {i 1} ^ {N _ {t}} \sum_ {j 1} ^ {N _ {e}} G _ {i, j}. \tag {11}LL任务​λL正则​,L正则​i1∑Nt​​j1∑Ne​​Gi,j​.(11)密集训练/稀疏推理DTSI-MoE部分采用两个路由器h t r a i n h_{\mathrm{train}}htrain​和h i n f e r h_{\mathrm{infer}}hinfer​且正则化损失L r e g \mathcal{L}_{\mathrm{reg}}Lreg​仅作用于h i n f e r h_{\mathrm{infer}}hinfer​。训练期间h t r a i n h_{\mathrm{train}}htrain​与h i n f e r h_{\mathrm{infer}}hinfer​同步更新而推理阶段仅使用h i n f e r h_{\mathrm{infer}}hinfer​。该方法使专家模型在降低推理成本的同时避免了训练不足的问题。本质上是低成本扩大模型参数的模型。实验、消融、在线略具体参考论文 https://arxiv.org/abs/2507.15551
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

高大上企业网站wordpress 多分类

JavaScript 中的元编程:Proxy、Reflect 与 Symbol 的组合拳 大家好,今天我们来深入探讨一个非常有趣但又常被忽视的话题——JavaScript 中的元编程(Metaprogramming)。 如果你对 JavaScript 的底层机制感兴趣,或者想写出更灵活、更强大的代码结构,那么你一定会喜欢今天的…

张小明 2026/1/7 23:01:35 网站建设

重庆付费网站推广wordpress阿里云主机

第一章:从0到1构建电商自动化报名系统的背景与价值在电商平台日益繁荣的今天,促销活动、限时秒杀、商家招商等场景对快速、准确的报名机制提出了更高要求。传统人工报名方式效率低下、易出错,已无法满足大规模、高频次的业务需求。构建一套电…

张小明 2026/1/7 23:01:36 网站建设

轻量应用服务器搭建网站淘宝关键词排名优化

近日,“AI 融智推动职业教育高质量发展论坛暨第三届职业院校人工智能学院院长(系主任)会议” 在云南腾冲隆重召开。本次大会由全国人工智能职业教育集团主办、中教全媒体承办,以 “智能赋能,融合共生:构建人…

张小明 2026/1/7 23:01:36 网站建设

高邮城乡建设局网站wordpress主题带数据

探索对等网络:技术革新与社会潜力 1. 对等网络的崛起 在2000年年中左右,“对等网络(peer-to-peer)”这一概念突然闯入了计算机领域的核心舞台。就像20世纪初精神分析倡导者看什么都与性相关一样,如今行业分析师和营销经理们开始把计算机和电信领域中他们看好的一切事物都…

张小明 2026/1/7 7:53:50 网站建设

河北 石家庄 网站建设正规货源网站大全

引言 在数据分析过程中,经常需要对数据进行分箱(binning)处理,以简化数据的复杂度并进行统计分析。同时,Bootstrap方法是一种有效的统计学工具,用于估计数据的置信区间。本文将结合实例探讨如何在Python中利…

张小明 2026/1/7 23:01:39 网站建设

企业网站每年的费用无货源电商

网页转PDF的革命性工具:wkhtmltopdf如何改变文档处理格局 【免费下载链接】wkhtmltopdf Convert HTML to PDF using Webkit (QtWebKit) 项目地址: https://gitcode.com/gh_mirrors/wk/wkhtmltopdf 还在为HTML页面无法完美打印而苦恼吗?&#x1f9…

张小明 2026/1/7 23:01:38 网站建设