上哪儿找做网站河南建设厅网站查证-宁德市网站建设公司-Seo优化

上哪儿找做网站,河南建设厅网站查证,大兴安岭网站推广,网站主机的类型本文旨在通过统计学的视角#xff0c;解析机器学习模型的学习过程。我们将理解对数据的假设如何帮助我们构建有意义的优化问题。事实上#xff0c;我们将推导出分类中常用的交叉熵准则和回归中常用的均方误差准则。最后#xff0c;尝试回答一个在面试中遇到的问题#xff1…本文旨在通过统计学的视角解析机器学习模型的学习过程。我们将理解对数据的假设如何帮助我们构建有意义的优化问题。事实上我们将推导出分类中常用的交叉熵准则和回归中常用的均方误差准则。最后尝试回答一个在面试中遇到的问题如果在二元分类中使用均方误差会怎样似然 VS 概率与概率密度首先从一个基本问题开始似然和概率有什么区别数据x通过概率 (P(x,\theta)) 或概率密度函数 (p(x,\theta)) 与可能的模型参数 (\theta) 相关联。简而言之概率密度函数给出了不同可能值出现的概率。PDF描述了任何给定值的无穷小概率。我们将沿用 PDF 的记法。对于任何给定的参数集 (\theta)(p(x,\theta)) 是x的概率密度函数。似然 (p(x,\theta)) 被定义为观测数据的联合密度作为模型参数的函数。这意味着对于任何给定的x(p(x\text{fixed},\theta)) 可以被视为 (\theta) 的函数。因此似然函数仅是参数 (\theta) 的函数数据被视为固定常数。符号说明我们将考虑处理一个包含m个数据实例的集合 (X) (X { \textbf{x}^{(1)}, …, \textbf{x}^{(m)} })这些实例遵循经验训练数据分布 (p_{data}^{train}(\textbf{x}) p_{data}(\textbf{x}))它是未知且更广泛的数据分布 (p_{data}^{real}(\textbf{x})) 的一个良好且有代表性的样本。独立同分布假设这引出了机器学习最基本的一个假设独立同分布数据。统计独立性意味着对于随机变量 A 和 B联合分布 (P_{A,B}(a,b)) 可以分解为其边缘分布函数的乘积(P_{A,B}(a,b) P_{A}(a) P_{B}(b))。这就是多变量联合分布如何转化为乘积的方式。注意通过对数运算 (\log \prod x \sum \log x)乘积可以转化为和。由于 (\log(x)) 是单调的它不会改变优化问题。我们的估计器模型将有一些可学习的参数 (\boldsymbol{\theta})它们构成了另一个概率分布 (p_{model}(\textbf{x}, \boldsymbol{\theta}))。理想情况下(p_{model}(\textbf{x}, \boldsymbol{\theta}) \approx p_{data}(\textbf{x}))。机器学习的本质是选择一个良好的初始模型该模型能利用数据的假设和结构。更通俗地说是一个具有不错归纳偏置的模型。随着参数被迭代优化(p_{model}(\textbf{x}, \boldsymbol{\theta})) 会更接近 (p_{data}(\textbf{x}))。在神经网络中由于迭代是以小批量方式进行的而不是在整个数据集上因此m将是小批量的大小。最大似然估计最大似然估计是一种常见的、有原则的方法通过它我们可以推导出良好的估计器即选择 (\boldsymbol{\theta}) 使其拟合数据。为了理清这个概念让我们以最直观的形式观察公式[\boldsymbol{\theta}{\mathrm{MLE}} \underset{\operatorname{params}}{\arg \max } \operatorname{p}{\operatorname{model}}( \operatorname{output} | {\operatorname{inputs}},\operatorname{params})]这个优化问题是最大化给定数据的似然。在概率世界中输出是条件。无条件 MLE 意味着我们没有输出的条件即没有标签。[\begin{aligned}\boldsymbol{\theta}{\mathrm{MLE}} \underset{\boldsymbol{\theta}}{\arg \max } \operatorname{p}{\text{model }}({X} , \boldsymbol{\theta}), \\underset{\boldsymbol{\theta}}{\arg \max } \prod_{i1}^{m} \operatorname{p}_{\text{model }}\left(\boldsymbol{x}^{(i)} , \boldsymbol{\theta}\right) .\end{aligned}]在有监督的机器学习环境中条件就是数据标签。[\boldsymbol{\theta}{\mathrm{ML}}\underset{\boldsymbol{\theta}}{\arg \max } \sum{i1}^{m} \log p_{model}\left(\boldsymbol{y}^{(i)} \mid \boldsymbol{x}^{(i)} , \boldsymbol{\theta}\right)]量化分布接近度KL散度解释 MLE 的一种方式是将其视为最小化训练数据分布 (p_{data}(\textbf{x})) 与模型分布 (p_{model}(\textbf{x}, \boldsymbol{\theta})) 之间的“接近度”。量化这种分布间“接近度”的最佳方式是KL散度定义如下[\begin{gathered}D_{KL}( p_{data} | p_{model})E_{x\sim p_{data}} [ \log \frac{p_{data}(\textbf{x})}{p_{model}(\textbf{x}, \boldsymbol{\theta})}] \E_{x\sim p_{data}} [ \log p_{data}(\textbf{x}) - \log p_{model}(\textbf{x}, \boldsymbol{\theta})],\end{gathered}]其中 (E) 表示对所有可能训练数据的期望。通常期望值 (E) 是所有可能结果的加权平均值。我们将用求和代替期望同时将每一项乘以其发生的可能“权重”即 (p_{data})。两个正态分布之间的相对熵示意图。典型的不对称性清晰可见。请注意我特意避免使用“距离”一词。为什么因为距离函数被定义为对称的。而 KL 散度是不对称的这意味着 (D_{KL}( p_{data} | p_{model}) \neq D_{KL}(p_{model} | p_{data} ))。直观上你可以将 (p_{data}) 视为一个静态的“信息源”它向“接收者”(p_{model}) 发送传递数据批次。由于信息是单向传递的即从 (p_{data}) 到 (p_{model})因此以 (p_{model}) 为参考源计算距离是没有意义的。通过用我们喜欢的求和代替期望 (E)[\begin{gathered}D_{KL}(p_{data} | p_{model})\sum_{x1}^{N} p_{data}(\textbf{x}) \log \frac{p_{data}(\textbf{x})}{p_{model}(\textbf{x}, \boldsymbol{\theta})} \\sum_{x1}^{N} p_{data}(\textbf{x})[\log p_{data}(\textbf{x})-\log p_{model}(\textbf{x}, \boldsymbol{\theta})]\end{gathered}]当我们对估计器的参数最小化 KL 散度时(\log p_{data}(\textbf{x})) 消失了这让我们得到[\nabla_{\theta} D_{K L}(p_{data} | p_{model}) - \sum_{x1}^{N} p_{data}(\textbf{x}) \log p_{model}(\textbf{x}, \boldsymbol{\theta}).]换句话说最小化 KL 散度在数学上等价于最小化交叉熵 (H(P,Q)-\sum_{x} P(x) \log Q(x))[\begin{aligned}H\left(p_{data}, p_{model}\right) H(p_{data})D_{K L}\left(p_{data} | p_{model}\right) \\nabla_{\theta} H\left(p_{data}, p_{model}\right) \nabla_{\theta}\left(H(p_{data})D_{K L}\left(p_{data} | p_{model}\right)\right) \\nabla_{\theta} D_{K L}\left(p_{data} | p_{model}\right)\end{aligned}]最优参数 (\boldsymbol{\theta}) 在原理上是相同的。尽管优化场景会不同由目标函数定义但最大化似然等价于最小化 KL 散度。在这种情况下数据的熵 (H(p_{data})) 将改变优化场景而标量乘法将缩放优化场景。有时我发现将场景想象成下山会有所帮助。实际上两者都被表述为最小化目标代价函数。从统计学的角度来看更多的是让分布接近所以用 KL 散度。从信息论的角度来看交叉熵可能更容易理解。线性回归中的 MLE考虑线性回归。假设每个预测 (\hat{y}) 都会产生一个“条件”分布 (p_{model}(\hat{y} | \textbf{x}))给定足够大的训练集。学习算法的目标同样是匹配分布 (p_{data}(y | \textbf{x}))。现在我们需要一个假设。我们假设神经网络或任何估计器 (f) 为 (\hat{y}f(\textbf{x} , \theta))。该估计器近似于我们选择用来参数化 (p_{data}) 的正态分布 (N(\mu,\sigma)) 的均值。具体来说在最简单的线性回归情况下我们有 (\mu \boldsymbol{\theta}^T \mathbf{x})。我们还假设正态分布有一个固定的标准差 (\sigma)。这些假设立即导致 MLE 变为均方误差优化。让我们看看是如何实现的。[\begin{aligned} \hat{y}f(\textbf{x} , \boldsymbol{\theta}) \y \sim \mathcal{N}\left(y , \mu\hat{y}, \sigma^{2}\right) \p(y \mid \textbf{x} , \boldsymbol{\theta}) \frac{1}{\sigma \sqrt{2 \pi}} \exp \left(\frac{-(y-\hat{y})^{2}}{2 \sigma^{2}}\right)\end{aligned}]在对数似然方面我们可以形成一个损失函数[\begin{aligned}L \sum_{i1}^{m} \log p(y \mid \textbf{x} , \boldsymbol{\theta}) \\sum_{i1}^{m} \log \frac{1}{\sigma \sqrt{2 \pi}} \exp \left(\frac{-\left(\hat{y}{(i)}-y{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\sum_{i1}^{m}-\log (\sigma \sqrt{2 \pi})-\log \exp \left(\frac{(\hat{y}{(i)}-y{{(i)}} )^{2}}{2 \sigma^{2}}\right) \\sum_{i1}^{m}-\log (\sigma)-\frac{1}{2} \log (2 \pi)-\frac{(\hat{y}{(i)}-y{{(i)}})^{2}}{2 \sigma^{2}} \-m \log (\sigma)-\frac{m}{2} \log (2 \pi)-\sum_{i1}^{m} \frac{\left(\hat{y}{(i)}-y{{(i)}}\right)^{2}}{2 \sigma^{2}} \\end{aligned}]对参数求偏导我们得到想要的 MSE。[\begin{aligned}\nabla_{\theta} L -\nabla_{\theta} \sum_{i1}^{m} \frac{\left|\hat{y}{(i)}-y{(i)}\right|^{2}}{2 \sigma^{2}} \-m \log (\sigma)-\frac{m}{2} \log (2 \pi)-\sum_{i1}^{m} \frac{\left|\hat{y}{(i)}-y{(i)}\right|^{2}}{2 \sigma^{2}} \-m \log (\sigma)-\frac{m}{2} \log (2 \pi)- \frac{m}{2 \sigma^{2}} MSE\end{aligned}]由于 (\operatorname{MSE}\frac{1}{m} \sum_{i1}{m}\left|\hat{y}{(i)}-y{(i)}\right|{2})监督分类中的 MLE在线性回归中我们将 (p_{model}(y | \mathbf{x}, \boldsymbol{\theta})) 参数化为正态分布。更准确地说我们将均值参数化为 (\mu \boldsymbol{\theta}^T \mathbf{x})。可以将线性回归转化为分类问题。我们需要做的就是将真实标签编码为独热向量[p_{data}\left(y \mid \textbf{x}{i}\right) \begin{cases}1 \text { if } yy{i} \ 0 \text { otherwise }\end{cases} ,]其中 (i) 指的是单个数据实例。[\begin{aligned}H_{i}\left(p_{data}, p_{model}\right) -\sum_{y \in Y} p_{data}\left(y \mid \textbf{x}{i}\right) \log p{model}\left(y \mid \textbf{x}{i}\right) \-\log p{model}\left(y_{i} \mid \textbf{x}_{i}\right)\end{aligned}]为了简单起见考虑两个标签 0 和 1 的二元情况。[\begin{aligned}L \sum_{i1}^{n} H_{i}\left(p_{data}, p_{model}\right) \\sum_{i1}^{n}-\log p_{model}\left(y_{i} \mid \textbf{x}{i}\right) \-\sum{i1}^{n} \log p_{model}\left(y_{i} \mid \textbf{x}{i}\right)\end{aligned}][\begin{aligned}\underset{\boldsymbol{\theta}}{\arg \min } L \underset{\boldsymbol{\theta}}{\arg \min } -\sum{i1}^{n} \log p_{model}\left(y_{i} \mid \textbf{x}_{i}\right)\end{aligned}]这与我们条件 MLE 的定义是一致的[\boldsymbol{\theta}{\mathrm{ML}}\underset{\boldsymbol{\theta}}{\arg \max } \sum{i1}^{m} \log p_{model}\left(\boldsymbol{y}^{(i)} \mid \boldsymbol{x}^{(i)} , \boldsymbol{\theta}\right)]广义上说MLE 可以应用于大多数监督学习问题只需指定一个条件概率分布的参数族。在二元分类问题中实现这一点的另一种方法是将线性层的标量输出 (y) 通过一个 sigmoid 函数。输出将在 [0,1] 范围内我们将其定义为 (p(y 1 | \mathbf{x}, \boldsymbol{\theta})) 的概率。[p(y 1 | \mathbf{x}, \boldsymbol{\theta}) \sigma( \boldsymbol{\theta}^T \mathbf{x}) \operatorname{sigmoid}( \boldsymbol{\theta}^T \mathbf{x}) \in [0,1]]因此(p(y 0 | \mathbf{x}, \boldsymbol{\theta}) 1 - p(y 1 | \mathbf{x}, \boldsymbol{\theta}))。在这种情况下实际上使用的是二元交叉熵。这里没有封闭形式的解可以用梯度下降来近似。作为参考这种方法出人意料地被称为“逻辑回归”。额外内容如果在二元分类中使用 MSE 会怎样到目前为止我介绍了基础知识。这是一个我在一次机器学习面试中被问到的问题如果我们在二元分类中使用 MSE 会怎样当 (\hat{y}^{(i)}0) 时[\operatorname{MSE}\frac{1}{m} \sum_{i1}{m}\left|-y{(i)}\right|^{2} \frac{1}{m} \sum_{i1}^{m}\left|-\sigma( \boldsymbol{\theta}^T \mathbf{x}) \right|^{2} \frac{1}{m} \sum_{i1}^{m}\left|\sigma( \boldsymbol{\theta}^T \mathbf{x}) \right|^{2}]当 (\hat{y}^{(i)}1) 时[\operatorname{MSE}\frac{1}{m} \sum_{i1}^{m}\left|1 -y{(i)}\right|{2}\frac{1}{m} \sum_{i1}^{m}\left|1 - \sigma( \boldsymbol{\theta}^T \mathbf{x}) \right|^{2}]一种无需深入研究数学就能猜测发生了什么的直观方法是在训练开始时网络将输出接近 0.5 的值这对两个类别给出大致相同的信号。以下是 Jonas Maison 在文章最初发布后提出的一个更有原则的方法。Jonas Maison 提出的演示假设我们有一个简单的神经网络权重为 (\theta)使得 (z\theta^\intercal x)并使用 sigmoid 激活输出 (\hat{y}\sigma(z))。[\frac{\partial L}{\partial \theta}\frac{\partial L}{\partial \hat{y}}\frac{\partial \hat{y}}{\partial z}\frac{\partial z}{\partial \theta}]MSE 损失(L(y, \hat{y}) \frac{1}{2}(y-\hat{y})^2)[\frac{\partial L}{\partial \theta}-(y-\hat{y})\sigma(z)(1-\sigma(z))x][\frac{\partial L}{\partial \theta}-(y-\hat{y})\hat{y}(1-\hat{y})x](\sigma(z)(1-\sigma(z))) 使得如果 (\sigma(z)) 接近 0 或 1梯度会消失。因此神经网络无法训练。二元交叉熵损失(L(y, \hat{y}) -ylog(\hat{y})-(1-y)log(1-\hat{y}))对于 (y0)[\frac{\partial L}{\partial \theta}\frac{1-y}{1-\hat{y}}\sigma(z)(1-\sigma(z))x][\frac{\partial L}{\partial \theta}\frac{1-y}{1-\hat{y}}\hat{y}(1-\hat{y})x][\frac{\partial L}{\partial \theta}(1-y)(\hat{y})x][\frac{\partial L}{\partial \theta}\hat{y}x]如果网络是正确的(\hat{y}0)梯度为零。对于 (y1)[\frac{\partial L}{\partial \theta}-\frac{y}{\hat{y}}\sigma(z)(1-\sigma(z))x][\frac{\partial L}{\partial \theta}-\frac{y}{\hat{y}}\hat{y}(1-\hat{y})x][\frac{\partial L}{\partial \theta}-y(1-\hat{y})x][\frac{\partial L}{\partial \theta}-(1-\hat{y})x]如果网络是正确的(\hat{y}1)梯度为零。结论与参考文献这个简短的分析解释了为什么我们会盲目地选择最小化交叉熵等目标函数。MLE 是一种有原则的方法来定义优化问题我发现它在面试中是支持设计决策的一个常见讨论话题。参考文献Deep learning - Information theory and Maximum likelihood by Jonathan Hui.Cross-Entropy, KL Divergence, and Maximum Likelihood Estimation by Lei Mao.Chapter 5, Machine Learning Basics, Deep learning book by Ian Goodfellow and Yoshua Bengio and Aaron Courville更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

上哪儿找做网站河南建设厅网站查证

学做巧裁缝官方网站什么是响应式的网站

备案网站语言wordpress 图灵机器人

网页建站实用技术广告公司可以做网站吗

asp新闻发布网站模板网站轮播效果怎么做的

做网站工作描述自建服务器做网站

网站开发需要了解的知识河南做网站公司哪家好

上哪儿找做网站河南建设厅网站查证

学做巧裁缝官方网站什么是响应式的网站

备案 网站语言wordpress 图灵机器人

网页建站实用技术广告公司可以做网站吗

asp新闻发布网站模板网站轮播效果怎么做的

做网站工作描述自建服务器做网站

网站开发需要了解的知识河南做网站公司哪家好

备案网站语言wordpress 图灵机器人