想做一个网站网站建设中联系我们怎么写

张小明 2026/1/16 11:42:23
想做一个网站,网站建设中联系我们怎么写,哈市建设网站,苏州建筑公司有哪些从MAE到C-Eval#xff08;1#xff09; 这个系列好久没更了#xff0c;当时停更是因为没有阅读量#xff0c;但是我现在其实也不为了阅读量了#xff0c;愿意写啥#xff0c;写啥#xff0c;所以就把这个系列又捡起来了#xff08;我之前留的所有坑#xff0c;每个系…从MAE到C-Eval1这个系列好久没更了当时停更是因为没有阅读量但是我现在其实也不为了阅读量了愿意写啥写啥所以就把这个系列又捡起来了我之前留的所有坑每个系列也都会填上的之前的文章介绍了MAE和MSE这俩玩意都是做回归的再复习一下这次换一个公式写法为了好理解我们用单样本损失yi 就是y_true,y_i^就是预测值对单个样本ii有一个损失ℓ_iℓii如果是回归 MAE数学特点线性误差误差每增大一点惩罚线性增加不会像平方那样放大极端值。导数是符号函数在 0 点有“尖角”对梯度下降不如 MSE 那么平滑。适用场景回归任务但函数曲线这样如果是回归 MSE数学特点二次方误差越大惩罚增长得非常快。适用场景回归任务的默认首选连续值预测房价、温度、评分等。你希望模型对“大误差”反应更剧烈因为平方会放大远离点缺点对 outlier极端样本特别敏感容易被坏点拖着跑。函数曲线那么MAE比起MSE呢对比 MSEMSE惩罚大误差更狠适合你希望模型尽量别出“大错”的回归MAE对每个误差一视同仁适合你想稳一点不想被极端点绑架 那你可以用MAE然后上节还讲了熵香浓信息熵直白讲随机变量 X 服从分布 p它的熵H(p) 用分布p自己的概率去算“平均每次观察一个样本带来的信息量”。再看不懂就拆开讲设有一个随机事件x它发生的概率是p(x)。定义一个量I(x)−log⁡p(x)你现在只要记两点直觉如果p(x)很大比如 0.99那−logp(x)很小这个结果一点不意外“信息量”小。如果p(x)很小比如 0.001那−logp(x)很大这个结果很罕见“信息量”大。所以−log⁡p(x)被叫做“这个具体结果的惊喜度 / 信息量”。你可以先当成定义事件越罕见看到它时获得的信息越多用−logp(x)度量。接下来我们要讲一个概念熵 “信息量的平均值”现在不只是一个结果而是一个随机变量X它可能取很多种值x1,x2,…每个值出现的概率是p(x)那么每次我们看到一个具体结果x它的信息量是−log⁡p(x)但每次看到的结果不一样信息量也会不一样。熵H(p)做的事情就是用分布 p自己的概率去算“平均每看到一次结果带来的信息量是多少”数学上就是把“信息量”−log⁡p(x)按概率p(x)求加权平均期望这个式子就是这么来的讲完了信息熵的定义了我们为什么要讲它不是在讲损失函数吗对喽讲完了MSEMAE回归任务经常用的损失函数就该讲分类常用的损失函数交叉熵了也就是cross-entropy你看它也有entropy可见叫XX熵也算实至名归那为什么要冠以cross呢我们去熵公司的前面部分就是带期望那个熵交叉熵区别只在一件事熵真分布p既负责说“样本出现的频率”期望又负责“我们认为它的概率”log 里交叉熵所以交叉熵是个假的啊肯定假啊毕竟你预测的不是真值然后去收敛模型么对吧交叉熵 “真实世界按 p出现样本但我们用 q来编码这些样本时平均每个样本需要多少信息量多少 bit”。如果模型q跟真实p很接近交叉熵就接近熵本身能接近理论最优的编码长度。如果q很烂把高概率事件当低概率给交叉熵就会大很多。分类/语言模型训练时我们的情况刚好就是真实标签分布 pone‑hot 或经验频率可以当“真分布”比如LLM其实就是one-hot不是在embedding的时候而是在词表V推理sotamax概率的时候其实就是一个one-hot几万十几万的词表只有那个词被推理出来它是1别人是0模型输出的概率分布 qθsoftmax、sigmoid 的输出。用的损失函数就是还是用llm来解释这个时候x就是你的contexty就是你要推出来的next-token这就好理解了吧优化目标也是让qθ 逼近p哎这就把KL散度也给引入了然后下次再讲吧讲熵交叉熵KL散度的关系写在最后我为啥又把这些东西翻出来了是因为我发现RL的东西对大多数人太抽象了好多读者都希望我更新但是属实有很多人留言看不懂其实没很多人因为纯讲算法的几乎没什么人读但是抽象的核心原因好像并不是RL本身反而是这些最普通的基础概念所以我决定先给读者补补基础否则后面ppo为什么要用grpo取代grpo的为什么有的论文把KL散度直接删了不弄清楚这些底层概念读者是看不懂的不过这个东西长一长也许能长成一本深度学习数学红宝书也不一定
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站设计的优点腾讯社交广告平台

Qlib量化投资平台终极指南:从零开始构建AI驱动的投资策略 【免费下载链接】qlib Qlib 是一个面向人工智能的量化投资平台,其目标是通过在量化投资中运用AI技术来发掘潜力、赋能研究并创造价值,从探索投资策略到实现产品化部署。该平台支持多种…

张小明 2026/1/12 12:33:40 网站建设

大连网站建设-中国互联关于.net网站开发外文书籍

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 同行可拿货,招校园代理 vue3和nodejs开发的基于Java的全国著名旅游景点信息管理系…

张小明 2026/1/9 23:20:05 网站建设

东莞网站建设求职简历网站建设价值

第一章:MCP Azure量子错误处理概述 量子计算在实现通用化和实用化过程中面临的主要挑战之一是量子噪声与错误。Azure Quantum作为微软推出的量子计算云平台,集成了MCP(Microsoft Quantum Control Protocol)框架,用于监…

张小明 2026/1/12 15:45:44 网站建设

电子商务网站建设与维护期末考试投资项目网

Excalidraw宠物护理表:健康管理记录 在城市家庭中,越来越多的人将宠物视为家人。当“旺财”开始频繁抓耳朵、食欲下降时,主人张伟翻出手机里零散的照片和微信聊天记录,试图拼凑它最近两周的症状变化——这几乎是每个宠物主人都经历…

张小明 2026/1/7 20:19:31 网站建设

网站建设证有html查询网站制作

SSH隧道转发端口访问Jupyter:Miniconda-Python3.10实战教学 在人工智能实验室或个人开发场景中,你是否曾遇到这样的困境?明明已经在远程GPU服务器上装好了PyTorch和Jupyter,却因为安全策略无法从本地笔记本直接访问;或…

张小明 2026/1/7 20:19:31 网站建设

大数据网站2018年做返利网站

零成本突破消息队列认证:30天从新手到专家的实战攻略 【免费下载链接】Free-Certifications 专门针对计算机开发领域的精选免费课程和认证资格清单。 项目地址: https://gitcode.com/GitHub_Trending/fr/Free-Certifications 还在为高昂的消息队列认证费用发…

张小明 2026/1/13 15:51:08 网站建设