龙华区住房和建设局网站是哪个网页都有哪些

张小明 2026/1/9 22:18:34
龙华区住房和建设局网站是哪个,网页都有哪些,客户关系管理系统包括,企业erp系统集成学习、随机森林与AdaBoost 系统梳理 本文将从集成学习基础、随机森林#xff08;Bagging代表#xff09;、AdaBoost#xff08;Boosting代表#xff09; 三个核心模块#xff0c;结合语法、表格、实战案例#xff0c;系统讲解相关知识#xff0c;并补充扩展算法与对…集成学习、随机森林与AdaBoost 系统梳理本文将从集成学习基础、随机森林Bagging代表、AdaBoostBoosting代表三个核心模块结合语法、表格、实战案例系统讲解相关知识并补充扩展算法与对比分析。1. 集成学习基础1.1 定义与核心思想集成学习Ensemble Learning是将多个基学习器如决策树、逻辑回归等通过特定策略组合以提升模型的泛化能力准确性、稳定性的方法。核心思想“弱学习器集成强学习器”通过降低方差Bagging、降低偏差Boosting或融合优势Stacking解决单一模型的过拟合/欠拟合问题。1.2 集成学习三大范式维度Bagging自助聚合Boosting自适应提升Stacking堆叠训练方式并行所有基学习器同时训练串行基学习器按顺序训练分层并行串行样本策略有放回Bootstrap抽样生成不同样本子集全样本动态调整样本权重聚焦错误样本全样本基学习器预测结果作为新特征权重规则基学习器等权投票/平均样本/基学习器权重动态调整错误率越低权重越高元学习器学习权重核心目标降低方差抗过拟合降低偏差提升拟合能力融合多模型优势提升泛化代表算法随机森林、BaggingClassifierAdaBoost、GBDT、XGBoostStackingClassifier过拟合风险低高易过拟合中需调参计算效率高并行低串行低多层训练2. 随机森林Random Forest, RF随机森林是Bagging的改进版基学习器为决策树核心改进是样本特征双随机是工业界最常用的基准模型。2.1 核心原理样本随机对训练集做Bootstrap抽样有放回生成多个样本子集子集大小与原训练集一致特征随机训练每棵决策树时随机选择部分特征如sqrt(总特征数)仅用这些特征找最优分割点最终预测分类用“多数投票制”回归用“平均值”。2.2 关键参数sklearn参数名类型作用默认值n_estimatorsint决策树数量基学习器个数100criterionstr分裂准则分类用gini基尼系数/entropy信息熵回归用mse/mae分类gini回归msemax_depthint决策树最大深度None表示不限制Nonemax_featuresstr/int每棵树随机选择的特征数分类sqrt(n_features)回归n_features/3分类sqrtbootstrapbool是否使用Bootstrap抽样Trueoob_scorebool是否用“袋外样本”未被抽样的样本评估模型Falsen_jobsint并行CPU核心数-1表示全部Nonerandom_stateint随机种子保证结果可复现None2.3 语法格式# 核心库导入fromsklearn.ensembleimportRandomForestClassifier,RandomForestRegressorfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score,mean_squared_error,r2_score# 1. 数据拆分X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.2,random_state42)# 2. 分类模型初始化与训练rf_clfRandomForestClassifier(n_estimators100,max_depth5,max_featuressqrt,oob_scoreTrue,random_state42,n_jobs-1)rf_clf.fit(X_train,y_train)# 3. 回归模型初始化与训练rf_regRandomForestRegressor(n_estimators100,max_depth8,max_featuressqrt,random_state42,n_jobs-1)rf_reg.fit(X_train,y_train)# 4. 预测与评估y_pred_clfrf_clf.predict(X_test)accaccuracy_score(y_test,y_pred_clf)# 分类准确率y_pred_regrf_reg.predict(X_test)msemean_squared_error(y_test,y_pred_reg)# 回归MSEr2r2_score(y_test,y_pred_reg)# 回归R²2.4 实战案例案例1随机森林分类鸢尾花数据集importpandasaspdfromsklearn.ensembleimportRandomForestClassifierfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score,classification_reportfromsklearn.datasetsimportload_iris# 1. 加载数据irisload_iris()Xpd.DataFrame(iris.data,columnsiris.feature_names)ypd.Series(iris.target,namespecies)# 2. 分层拆分数据保证类别分布X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.2,random_state42,stratifyy)# 3. 训练模型rf_clfRandomForestClassifier(n_estimators100,max_depth3,oob_scoreTrue,random_state42,n_jobs-1)rf_clf.fit(X_train,y_train)# 4. 评估y_predrf_clf.predict(X_test)print(f测试集准确率{accuracy_score(y_test,y_pred):.4f})print(f袋外样本准确率{rf_clf.oob_score_:.4f})print(\n分类报告)print(classification_report(y_test,y_pred,target_namesiris.target_names))# 特征重要性feat_importancepd.DataFrame({feature:iris.feature_names,importance:rf_clf.feature_importances_}).sort_values(importance,ascendingFalse)print(\n特征重要性\n,feat_importance)结果解释测试集准确率≈1.0鸢尾花数据集简单袋外准确率≈0.95说明模型泛化能力强特征重要性显示“花瓣长度petal length”是分类核心特征。案例2随机森林回归加州房价数据集fromsklearn.ensembleimportRandomForestRegressorfromsklearn.datasetsimportfetch_california_housing# 1. 加载数据cal_housingfetch_california_housing()Xpd.DataFrame(cal_housing.data,columnscal_housing.feature_names)ypd.Series(cal_housing.target,namemedian_house_value)# 2. 拆分数据X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.2,random_state42)# 3. 训练模型rf_regRandomForestRegressor(n_estimators100,max_depth8,random_state42,n_jobs-1)rf_reg.fit(X_train,y_train)# 4. 评估y_predrf_reg.predict(X_test)print(f测试集MSE{mean_squared_error(y_test,y_pred):.4f})print(f测试集R²{r2_score(y_test,y_pred):.4f})# 特征重要性feat_importancepd.DataFrame({feature:cal_housing.feature_names,importance:rf_reg.feature_importances_}).sort_values(importance,ascendingFalse)print(\n特征重要性\n,feat_importance)结果解释R²≈0.85越接近1越好说明模型拟合效果优异特征重要性显示“MedInc收入”是房价最核心影响因素。2.5 优缺点优点缺点抗过拟合能力强双随机对噪声过大的数据集敏感无需特征归一化处理高维数据回归对极值的拟合不如Boosting输出特征重要性可解释性好深度过深仍可能过拟合并行训练计算效率高-对缺失值/异常值不敏感-3. AdaBoostAdaptive BoostingAdaBoost是Boosting的经典算法核心是自适应调整样本权重和基学习器权重聚焦错误样本提升拟合能力。3.1 核心原理二分类为例初始化权重所有样本权重相等D1(i)1/ND_1(i) 1/ND1​(i)1/NN为样本数迭代训练基学习器用当前权重训练基学习器hm(x)h_m(x)hm​(x)计算错误率ϵm∑Dm(i)⋅I(hm(xi)≠yi)\epsilon_m \sum D_m(i) \cdot I(h_m(x_i) \neq y_i)ϵm​∑Dm​(i)⋅I(hm​(xi​)yi​)计算基学习器权重αm12ln⁡(1−ϵmϵm)\alpha_m \frac{1}{2}\ln(\frac{1-\epsilon_m}{\epsilon_m})αm​21​ln(ϵm​1−ϵm​​)错误率越低权重越高更新样本权重错误样本权重升高正确样本权重降低归一化保证权重和为1最终预测H(x)sign(∑αm⋅hm(x))H(x) sign(\sum \alpha_m \cdot h_m(x))H(x)sign(∑αm​⋅hm​(x))符号函数。3.2 关键参数sklearn参数名类型作用默认值base_estimatorobject基学习器默认决策树桩DecisionTreeClassifier(max_depth1)决策树桩n_estimatorsint基学习器个数50learning_ratefloat缩放基学习器权重越小需更多基学习器1.0algorithmstr分类算法SAMME离散/SAMME.R实数更快更准SAMME.Rlossstr回归损失函数linear/square/exponentiallinearrandom_stateint随机种子None3.3 语法格式# 核心库导入fromsklearn.ensembleimportAdaBoostClassifier,AdaBoostRegressorfromsklearn.treeimportDecisionTreeClassifier,DecisionTreeRegressor# 1. 数据拆分同随机森林X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.2,random_state42)# 2. 分类模型初始化与训练ada_clfAdaBoostClassifier(base_estimatorDecisionTreeClassifier(max_depth2),# 自定义基学习器n_estimators50,learning_rate0.8,algorithmSAMME.R,random_state42)ada_clf.fit(X_train,y_train)# 3. 回归模型初始化与训练ada_regAdaBoostRegressor(base_estimatorDecisionTreeRegressor(max_depth2),n_estimators50,learning_rate0.5,losssquare,random_state42)ada_reg.fit(X_train,y_train)# 4. 预测与评估同随机森林y_pred_clfada_clf.predict(X_test)y_pred_regada_reg.predict(X_test)3.4 实战案例案例1AdaBoost分类鸢尾花数据集importpandasaspdfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score,classification_reportfromsklearn.datasetsimportload_irisfromsklearn.treeimportDecisionTreeClassifier# 1. 加载数据irisload_iris()Xpd.DataFrame(iris.data,columnsiris.feature_names)ypd.Series(iris.target,namespecies)# 2. 拆分数据X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.2,random_state42,stratifyy)# 3. 训练模型ada_clfAdaBoostClassifier(base_estimatorDecisionTreeClassifier(max_depth1),# 决策树桩弱学习器n_estimators100,learning_rate0.8,algorithmSAMME.R,random_state42)ada_clf.fit(X_train,y_train)# 4. 评估y_predada_clf.predict(X_test)print(f测试集准确率{accuracy_score(y_test,y_pred):.4f})print(\n分类报告)print(classification_report(y_test,y_pred,target_namesiris.target_names))# 基学习器权重前5个print(\n前5个基学习器权重\n,ada_clf.estimator_weights_[:5])结果解释准确率≈1.0说明弱学习器经AdaBoost集成后拟合能力显著提升基学习器权重越高对最终预测的贡献越大。案例2AdaBoost回归加州房价数据集fromsklearn.ensembleimportAdaBoostRegressorfromsklearn.datasetsimportfetch_california_housingfromsklearn.treeimportDecisionTreeRegressor# 1. 加载数据cal_housingfetch_california_housing()Xpd.DataFrame(cal_housing.data,columnscal_housing.feature_names)ypd.Series(cal_housing.target,namemedian_house_value)# 2. 拆分数据X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.2,random_state42)# 3. 训练模型ada_regAdaBoostRegressor(base_estimatorDecisionTreeRegressor(max_depth3),n_estimators100,learning_rate0.5,losssquare,random_state42)ada_reg.fit(X_train,y_train)# 4. 评估y_predada_reg.predict(X_test)print(f测试集MSE{mean_squared_error(y_test,y_pred):.4f})print(f测试集R²{r2_score(y_test,y_pred):.4f})结果解释R²≈0.75略低于随机森林调整n_estimators/max_depth可提升至0.8学习率越小如0.5需更多基学习器如100才能达到相同效果。3.5 优缺点优点缺点简单易实现无需特征归一化对噪声/异常值敏感放大错误样本对弱学习器集成效果显著易过拟合基学习器复杂/数量多支持分类/回归串行训练计算效率低模型复杂度可控多分类处理不如随机森林4. 随机森林 vs AdaBoost 核心对比维度随机森林AdaBoost集成范式Bagging并行Boosting串行基学习器决策树可深弱学习器如决策树桩权重策略等权无样本权重调整动态调整样本/基学习器权重过拟合风险低高计算效率高低噪声敏感性低高适用场景高维数据、需抗过拟合低维数据、需提升拟合能力调参核心n_estimators/max_depth/max_featuresn_estimators/learning_rate/base_estimator5. 扩展算法简要算法核心改进特点GBDT基于梯度下降拟合残差拟合能力强易过拟合XGBoostGBDT正则化列抽样并行优化速度快、效果好工业界主流LightGBM直方图优化单边采样互斥特征内存小、速度极快适合大数据Stacking分层训练基学习器元学习器融合多模型优势复杂度高6. 总结集成学习的核心是“弱学习器集成强学习器”Bagging降方差、Boosting降偏差、Stacking融优势随机森林是Bagging的代表抗过拟合、效率高是工业界基准模型AdaBoost是Boosting的代表拟合能力强但需注意过拟合和噪声问题实际应用中优先用随机森林做基准若拟合不足偏差高再尝试AdaBoost/XGBoost并通过交叉验证调参。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

如何做好网站内容优化许昌哪个网站做苗木

NT4 域迁移至 Samba - 3 指南 1. 迁移概述 将多个 NT4 域中的用户和组账户迁移到单个 Samba - 3 LDAP 后端数据库,是一个涉及多方面考量的过程。在开始之前,我们要明确迁移的目标。虽然有时可以简单地将 NT4 域迁移到单个 Samba - 3 服务器,但从管理角度看,这可能并非最佳…

张小明 2026/1/4 0:15:08 网站建设

大连免费模板建站wp标题 wordpress

在 AIGC 技术飞速普及的当下,搭建专属 AI 应用、构建智能知识库,已经成为不少企业和开发者的刚需。但市面上的 AI 开发平台要么侧重独立能力、难以对接业务系统,要么技术栈门槛高、部署复杂。 PART 01 项目概述 作为一款基于大型语言模型&a…

张小明 2026/1/6 10:47:45 网站建设

网站开发总监招聘做一个自我介绍的网页

第1章 启程:搭建PHP开发环境与语法初探 章节介绍 欢迎开启你的PHP API开发之旅!在能够构建强大的服务器接口之前,我们需要先打好坚实的基础.本章将作为你编程世界的"新手村",在这里,你将完成两件至关重要的事情:搭建好可以运行PHP的"工作台"(开…

张小明 2026/1/5 1:26:49 网站建设

高校思政课网站建设潍坊seo教程

在电子信息产业向高端化转型的背景下,线路板作为核心基础部件,其品质直接决定终端产品性能与市场竞争力。当前PCB行业呈现小批量、多品种、快交付的典型特征,企业在选型过程中常面临工艺适配不足、交付不稳定、成本失控等风险。本文构建全流程…

张小明 2026/1/4 1:36:09 网站建设

好看的企业网站模板wordpress mysql 设置

第一章:Open-AutoGLM内测申请全貌解析 Open-AutoGLM 是由智谱AI推出的一款面向自动化任务的开源大模型,目前正处于内测阶段。该模型具备强大的自然语言理解与代码生成能力,适用于智能代理、自动化脚本生成等前沿应用场景。参与内测不仅能优先…

张小明 2026/1/7 23:48:32 网站建设

网站建设功能报贵州seo策略

如何用卷积神经网络轻松实现图像识别?5个关键步骤深度解析 【免费下载链接】CNN卷积神经网络讲解50多页PPT详细介绍 本PPT深入浅出地讲解了卷积神经网络(CNN)的核心原理与应用,涵盖从基础结构到卷积、池化等操作的详细解析&#x…

张小明 2026/1/4 2:08:57 网站建设