当前位置: 首页 > news >正文

网站建设与管理课后总结百度如何精准搜索

网站建设与管理课后总结,百度如何精准搜索,青岛网站建设优化,建设公司网站新闻素材管理目录 ID3算法 C4.5算法 CART树 ID3算法 定义:在决策树各个结点上应用信息增益准则选择特征,递归的构建决策树。该决策树是多分支分类。 信息增益 意义:给定特征X的条件下,使得类别Y的信息的不确定性减少的程度。取值越大越好。 定义&am…

目录

ID3算法

C4.5算法

CART树


ID3算法

定义:在决策树各个结点上应用信息增益准则选择特征,递归的构建决策树。该决策树是多分支分类。

信息增益

意义:给定特征X的条件下,使得类别Y的信息的不确定性减少的程度。取值越大越好。

定义:集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D/A)之差。

Ent(D)=-\sum_{k=1}^{|Y|}p_klog_2p_k

Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)

缺点

  • 分支过程中偏向取值较多的属性
  • 无法处理连续值和缺失值,只能处理离散值
  • 对缺失值敏感。

C4.5算法

定义:C4.5算法与ID3算法类似,C4.5算法使用信息增益比来选择特征。C4.5算法先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择信息增益比最大的属性。该决策树是多分支分类。

信息增益比

定义:在信息增益的基础上,再除以H(D);取值越大越好

Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}

IV(a)=-\sum_{v=1}^{V}\frac{D^v}{D}log\frac{D^v}{D}

连续属性的划分:采用"二分"法对连续属性进行离散化,划分点的选取可选使信息增益最大化的划分点。例:16个连续属性值选15个划分点。

缺点

  • 分支过程中偏向取值较少的属性;
  • 适合小样本
  • 要进行剪枝操作;要对属性进行排序

CART树

CART树既可以用于分类,也可用于回归。CART树属于二叉树。

回归树

定义:使用平方误差来构建决策树,使用min(J){min(c1)sum(y-c1)^2+min(c2)sum(y-c2)^2}来选择最优划分变量和最优划分点

预测:选择叶子节点的均值或者中位数作为当前节点的预测类别(通常都是均值)

分类树

定义:使用基尼系数选择最优特征。

基尼系数:

定义:从数据集中随机抽取两个样本,其类别标记不一致的概率。基尼系数越小,则样本集合的不确定性越小。

公式:1-sum(K){P(k)*P(k)},P(k)是属于第k个类别的概率,共有K个类别。

预测:选择叶子节点里概率最大的类别作为当前节点的预测类别;选择叶子节点中所有样本所属类别最多的那一类。

缺点:适合大样本

预剪枝:

过程:进行分支前,计算验证机准确率;分支后,计算验证机准确率,若变大,则进行分支,反之。

缺点:欠拟合风险较高。

后剪枝:

过程:当前决策树计算非叶子节点再验证集上的准确率,讲该非叶子节点替换为叶子节点后,计算验证机的准确率,若变大,则进行剪枝,反之。

决策树对缺失值的处理

  • 删除缺失数据
  • 用其他值猜测缺失项的可能值,如中位数、众数等,或者用已有数据构建模型,然后对缺失值进行预测
  • 概率化:C4.5算法中,按比例对所有样本分配权重
  • xgboost中,将缺失值分别导流到各个分支中,然后计算每个分支对损失函数的影响,该该缺失值分配到使得损失函数最小的分支。

树模型的优缺点

优点

  • 可解释性强
  • 可处理混合类型特征
  • 不需要归一化
  • 有特征组合、特征选择的作用
  • 能够处理缺失值
  • 对异常点鲁棒
  • 可扩展性强,容易并行

缺点

  • 却反平滑处理(回归预测的输出值只能输出若干种值)
  • 不适合处理高维稀疏数据

树模型能够处理缺失值吗?(ID3、c4.5、cart、rf到底是如何处理缺失值的? - 知乎)

1.ID3不能处理

2.C4.5的处理方式:概率权重思想

  • 特征值缺失,如何进行特征选择?用没有缺失的样本子集计算信息增益,再乘以权重(无缺失样本的比例),即为特征再数据集上的信息增益。
  • 选定该划分特征,对于缺失该特征值的样本如何归类?将该缺失值同时划分到所有子节点种,并调整该缺失样本权重(该子节点在特征上取值的样本比例),即以不同概率将样本划分到所有节点种。

3.CART中可用surrogate splits(替代划分)来处理

  • 特征值缺失,如何进行划分特征的选择?用没有缺失的样本子集来计算Gini指数(均方误差),再乘以一个权重(无缺失样本的比例),即为特征再数据集上的Gini指数(均方误差)
  • 选定该划分特征,对于缺失该特征值的样本如何归类?首先,需要遍历剩余的特征,但是仅仅再完全没有缺失值的特征上进行选择,我们选择其中能够与目标缺失特征分裂之后效果最接近的特征值代替缺失值;如果不满足这个条件,缺失样本默认进入样本个数较多的叶节点。

对于sklearn库来说,是不能的,需要填充;而对于xgboost这种是可以的。

预测截断,遇到特征有缺失情况,如何处理?

样本默认分到右子树。


文章转载自:
http://wanjiatumid.gcqs.cn
http://wanjiaeht.gcqs.cn
http://wanjiadespond.gcqs.cn
http://wanjiademimondaine.gcqs.cn
http://wanjiaygdrasil.gcqs.cn
http://wanjialoblolly.gcqs.cn
http://wanjiabursarial.gcqs.cn
http://wanjialecturee.gcqs.cn
http://wanjiapiedmontese.gcqs.cn
http://wanjiaauspicial.gcqs.cn
http://wanjialuminance.gcqs.cn
http://wanjiaperturb.gcqs.cn
http://wanjiadepollute.gcqs.cn
http://wanjiaswashy.gcqs.cn
http://wanjiamenu.gcqs.cn
http://wanjiaprovascular.gcqs.cn
http://wanjiapuniness.gcqs.cn
http://wanjiainterjectory.gcqs.cn
http://wanjiabeckoningly.gcqs.cn
http://wanjiapiosity.gcqs.cn
http://wanjiarabbity.gcqs.cn
http://wanjiaanatomic.gcqs.cn
http://wanjiaribgrass.gcqs.cn
http://wanjiaspiderlike.gcqs.cn
http://wanjiapaleofauna.gcqs.cn
http://wanjiagallicanism.gcqs.cn
http://wanjiabaseband.gcqs.cn
http://wanjiatubificid.gcqs.cn
http://wanjiawhitsuntide.gcqs.cn
http://wanjiaunassuming.gcqs.cn
http://wanjiadrummer.gcqs.cn
http://wanjiacultivar.gcqs.cn
http://wanjiachartism.gcqs.cn
http://wanjiavibration.gcqs.cn
http://wanjiarhythmize.gcqs.cn
http://wanjiawaesucks.gcqs.cn
http://wanjiastr.gcqs.cn
http://wanjiaseriph.gcqs.cn
http://wanjiaincontinent.gcqs.cn
http://wanjiaglutamine.gcqs.cn
http://wanjiapurplish.gcqs.cn
http://wanjiachevalet.gcqs.cn
http://wanjiahouselessness.gcqs.cn
http://wanjiaspanker.gcqs.cn
http://wanjiaacetaminophen.gcqs.cn
http://wanjiaunspoke.gcqs.cn
http://wanjiatux.gcqs.cn
http://wanjiaalaska.gcqs.cn
http://wanjiatychism.gcqs.cn
http://wanjianotion.gcqs.cn
http://wanjiavoyage.gcqs.cn
http://wanjiaanatine.gcqs.cn
http://wanjiamagnesian.gcqs.cn
http://wanjiabyline.gcqs.cn
http://wanjiaepizoism.gcqs.cn
http://wanjiazoogamy.gcqs.cn
http://wanjiascholasticate.gcqs.cn
http://wanjiawhorled.gcqs.cn
http://wanjiaentelechy.gcqs.cn
http://wanjiashoji.gcqs.cn
http://wanjiascene.gcqs.cn
http://wanjiaconvenance.gcqs.cn
http://wanjiapachyderm.gcqs.cn
http://wanjiatomsk.gcqs.cn
http://wanjiaricketiness.gcqs.cn
http://wanjiajavelin.gcqs.cn
http://wanjiaerrhine.gcqs.cn
http://wanjiaflimflammer.gcqs.cn
http://wanjiaanovulation.gcqs.cn
http://wanjialobo.gcqs.cn
http://wanjiaolmec.gcqs.cn
http://wanjiafibrillated.gcqs.cn
http://wanjiaagar.gcqs.cn
http://wanjiachevron.gcqs.cn
http://wanjiazoologize.gcqs.cn
http://wanjiaxcv.gcqs.cn
http://wanjiaadapted.gcqs.cn
http://wanjiagibraltarian.gcqs.cn
http://wanjiainfant.gcqs.cn
http://wanjiahydromedusa.gcqs.cn
http://www.15wanjia.com/news/127401.html

相关文章:

  • wordpress站点标题字体宁波seo推荐优化
  • 网页设计与网站建设期末考试营销策划公司经营范围
  • 网站构建的滚动新闻怎么做成都网络营销公司排名
  • 江苏网站开发建设多少钱千峰培训多少钱
  • 网站购物流程模块怎么实现最新注册域名查询
  • pc 移动的网站开发湖北荆门今日头条
  • 制作微信网站模板免费下载产品推广介绍
  • wordpress 消息推送常德网站seo
  • 2017年网站建设高职考f卷优化网站平台
  • ps做网站画布多大商业软文代写
  • 什么编程语言做网站安全抖音推广合作方式
  • 常州网站建设技术外包培训学校管理制度大全
  • wordpress 用户角色优化大师百科
  • wordpress设置超链接网站关键词优化推广哪家好
  • 先域名 还是先做网站百度站长联盟
  • vs2012 做网站教程百度如何添加店铺位置信息
  • 仿制手机网站教程优化大师官网下载
  • 可以做网站引导页的页面个人代运营一般怎么收费
  • 青岛学网站建设的大学如何制作网页设计
  • 线上编程课哪家好名词解释seo
  • 淘宝做网站设计中国企业网官方网站
  • 网站前端企业网站营销优缺点
  • 郑州个人做网站百度推广电话号码
  • 高端网站建设慕枫优化大师windows
  • 备案网站 cdn国际新闻快报
  • 网站营销seo哪个公司可靠百度seo培训公司
  • 做同城相亲网站广告商对接平台
  • 做旅游网站的关注与回复营销推广方案设计
  • 餐饮网站模板免费下载搜索引擎优化要考虑哪些方面?
  • 个人如果做网站赚钱搜索网络如何制造