当前位置: 首页 > news >正文

org域名网站山东省建设工程 评估中心网站

org域名网站,山东省建设工程 评估中心网站,手机整人网站怎么做,燕郊的大型网站建设最近做项目遇到的数据集中,有许多高维类别特征。catboost是可以直接指定categorical_columns的【直接进行ordered TS编码】,但是XGboost和随机森林甚至决策树都没有这个接口。但是在学习决策树的时候(无论是ID3、C4.5还是CART)&am…

最近做项目遇到的数据集中,有许多高维类别特征。catboost是可以直接指定categorical_columns的【直接进行ordered TS编码】,但是XGboost和随机森林甚至决策树都没有这个接口。但是在学习决策树的时候(无论是ID3、C4.5还是CART),肯定都知道决策树可以直接天然处理离散特征,那难道sklearn的决策树可以自己判断哪些特征是离散or连续?
在这里插入图片描述

决策树怎么处理连续特征

首先要明确,分类树和回归树,只是看label值是类别型还是连续型,和特征中是离散还是连续没有关系。并不是说CART回归树不能使用离散的特征,只是CART回归树里并不使用gini系数来计算增益。【补充题外话:CART作为一个二叉树,每次分列并不会和ID3一样消耗这一列特征,只是消耗了该特征的一个分界点
关于特征为连续属性时CART决策树如何处理:二分法——先从小到大依次排序,然后依次划分,进行判定。具体可以参考这篇博客。
在这里插入图片描述

sklearn里的决策树怎么处理类别特征的

答案是——不处理。在sklearn实现的CART树中,是用同一种方式去处理离散与连续的特征的,即:把离散的特征也都当做连续的处理了,只能处理连续特征 和 做编码成数字的离散特征
在这里插入图片描述
在这里插入图片描述
可以看这个问题,我的理解是sklearn为了速度对CART的原来算法做了一定的改进,不再按照原来的方法处理离散特征,而是都统一成连续特征来处理了【所以没有categorical_columns接口】。
其实理论上来说,XGB是可以用离散变量的,毕竟增益只和结点上的样本有关,特征只是决定树的结构:
在这里插入图片描述

解决方案

如果想使用DT、RF、XGB,离散特征需要人为进行处理。可以看这个博客,对类别特征进行编码。如果类别不是很多,可以考虑用one-hot(尽管决策树不太欢迎onehot),类别特征太多的,就要考虑用target encoding或者catboost encoding等编码方式来处理了。
另一方面,一些实际应用的结果表明,在特征维度很大的情况下,直接把每个特征编码成数字然后当做数值特征来用,其实效果并不会比严格按照categorical来使用差很多,或许可以考虑直接用LabelEncoder直接对高维类别特征进行编码,转化为数值特征。
或者考虑换LGBM、CatBoost

http://www.15wanjia.com/news/156795.html

相关文章:

  • 小说网站自主建设上传自己做的网站
  • 单位网站改版wordpress主题 个人博客
  • 德州做网站优化html5 国外网站
  • 新手怎么做网站推广福建省建设厅网站 2013
  • 泉州市住房与城乡建设局网站外贸全网营销
  • 个人网站可以挂广告吗湖畔魔豆基金会公益网站开发
  • 益阳网站开发公司企业信用网查询
  • 注册网站查询网站优化需要那些工具
  • 想建个网站什么代码都是自己写wordpress 自动采集
  • 住建部网站查询系统华为公司的企业设计
  • wordpress内容折叠插件优化推广的页面对于优化点击率起非常大的作用
  • 模板网站和定制网站影响排名页面跳转的方式有哪些
  • 怎么做网站的百度权重网站建设网页设计培训学校
  • 佛山本科网站建设wordpress 学术 模板
  • 企业网站设计策划中企动力初期做的网站
  • 毕设做网站需要发布到浏览器吗排名前十的网站
  • 梵客家装电话优化大师安卓版
  • word用来做网站的查询网站是否安全
  • 有高并发,高访问量网站开发网站建设合同 附件
  • 建材做哪些网站好刷赞抖音推广网站
  • 保险网站建设壹壹推广联盟
  • 电子工程网官方网站常州天宁区建设局网站
  • 做废钢推广网站ui设计是什么软件做的
  • 每个城市建设规划在哪个网站seo排名
  • 怎么在网站添加链接软件开发类论文基本结构
  • 网站建设合同范文wordpress 模板框架
  • 怎么做网站的学校的大图权威发布的图片
  • 网站建设覀金手指科杰那个网站做推广比较好
  • 汶上网站建设友情链接教程
  • 网站类网站开发教程三网合一网站建设是指什么