当前位置: 首页 > news >正文

高端婚恋网站排名网站维护需要用到哪些知识

高端婚恋网站排名,网站维护需要用到哪些知识,访问域名进入WordPress指定的页面,oa办公系统下载安装文章目录 前言一、决策树是什么?二、数据收集与整理1.数据收集2.数据清洗3.特征选择 三、决策树构建3.1绘制训练数据图像3.2 训练决策树模型3.3 依据模型绘制决策树的决策边界3.4 树模型可视化 四、模型预测五、随机森林模型总结 前言 之前搞足球数据分析的时候&…

文章目录

  • 前言
  • 一、决策树是什么?
  • 二、数据收集与整理
    • 1.数据收集
    • 2.数据清洗
    • 3.特征选择
  • 三、决策树构建
    • 3.1绘制训练数据图像
    • 3.2 训练决策树模型
    • 3.3 依据模型绘制决策树的决策边界
    • 3.4 树模型可视化
  • 四、模型预测
  • 五、随机森林模型
  • 总结


前言

之前搞足球数据分析的时候,会通过一些预设条件去筛选比赛,比如当前比分是0-0,射门数>10并且射正数>2,盘口为1,那么筛选出来就是大球,反之则是小球,这种逻辑条件就是跟决策树差不多的算法模式,所以尝试用CART算法(决策树的一种算法),看一下这种去分析大小球胜率都能达到多少,再结合随机森林算法,胜率又能达到多少?这篇文章大概讲叙了决策树的算法实现过程。


一、决策树是什么?

决策树是一种树形模型,也是一种十分常用的分类和回归方法。决策树算法是一种监督学习算法,英文是Decision tree。

决策树思想的来源非常朴素,程序设计中的条件分支结构就是 if-else 结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。

  • 是一种树形结构,本质是一颗由多个判断节点组成的树
  • 其中每个内部节点表示一个属性上的判断,
  • 每个分支代表一个判断结果的输出,
  • 最后每个叶节点代表一种分类结果。

用最简单的话来说,就是根据你自己的条件,告诉模型正确的结果,比如射门数>10,是大球,反之就是小球,当然不可能这么简单,这里还包含很多特征数据,以及特征的增熵。

射正数>10
大球
小球

二、数据收集与整理

1.数据收集

这里引用第三方网站的数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.数据清洗

代码如下(示例):

data = pd.read_csv('https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

在这里插入图片描述

3.特征选择

我们选择以下特征来构建决策树:

  • 主队进球数
  • 客队进球数
  • 比赛时间(简单划分为早期、中期、后期)
  • 射门次数
  • 射正次数

但由于简化示例的限制,我们将只使用“主队进球数 +
客队进球数”这一复合特征,并假设阈值设为2.5球(即总进球数大于等于3为大球,否则为小球)。

三、决策树构建

3.1绘制训练数据图像

import numpy as np
import matplotlib.pyplot as pltfrom sklearn import datasetsiris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.targetplt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])plt.show()

绿色为大球、橙色为走水、蓝色为小球

在这里插入图片描述

3.2 训练决策树模型

from sklearn.tree import DecisionTreeClassifiertree = DecisionTreeClassifier(max_depth=2,criterion="entropy")
tree.fit(X,y)

3.3 依据模型绘制决策树的决策边界

#找到模型的决策边界,并绘制图像(此方法所用到的api不需要掌握,能够调用就行)
def plot_decision_boundary(model,axis):x0,x1 = np.meshgrid(np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1))X_new = np.c_[x0.ravel(),x1.ravel()]y_predict = model.predict(X_new)zz = y_predict.reshape(x0.shape)from matplotlib.colors import ListedColormapcustom_map = ListedColormap(["#EF9A9A","#FFF59D","#90CAF9"])plt.contourf(x0,x1,zz,linewidth=5,cmap=custom_map)plot_decision_boundary(tree,axis=[0.5,7.5,0,3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()

在这里插入图片描述

3.4 树模型可视化

from sklearn.tree import plot_tree
import matplotlib.pyplot as pltplot_tree(tree,filled=True)
plt.show()

在这里插入图片描述
从上面的可视化图形中看出

  • X[1] <=0.8 作为第一次分割的依据,满足条件的所有样本均为统一类别
  • X[1]>0.8的,依据 X[1]<=0.75 为划分依据
  • 由于设置了树的最大深度为2,第二层的两个叶子节点没有完全区分开

决策树算法:

·是非参数学习算法
·可以解决分类(多分类)问题
·可以解决回归问题:
·落在叶子节点的数据的平均值作为回归的结果

四、模型预测

将实时采集的滚球数据喂到大模型中

# 用LabelEncoder转换器就能把字符串类型的球队名转化为整型
from sklearn.preprocessing import LabelEncoder
encoding = LabelEncoder()
home_team = encoding.fit_transform(dataset["Home Team"].values)
visitor_team = encoding.fit_transform(dataset["Visitor Team"].values)
# 抽取所有比赛的主客场球队的球队名(已转化为数值型)并将其组合(在NumPy中叫作“stacking”,是向量组合的意思)起来,形成一个矩阵
x_team = np.vstack([home_team, visitor_team]).T# 使用OneHotEncoder转换器把这些整数转换为二进制数字
from sklearn.preprocessing import OneHotEncoder
onehot = OneHotEncoder()
x_teams_expanded = onehot.fit_transform(x_team).todense()clf = DecisionTreeClassifier(random_state=14)
scores = cross_val_score(clf, x_teams_expanded, y_true, scoring='accuracy')
print("The accuracy of 'x_teams_expanded' is {0:1f}%".format(np.mean(scores) * 100))

结果如下,大概60%的胜率,说明效果还行。后续用随机森林优化算法
在这里插入图片描述

五、随机森林模型

过程太长,这里直接上部门代码

# 使用GridSearchCV搜索最佳参数
parameter_space = {'max_features': [2, 10, 'auto'],'n_estimators': [10, ],'criterion': ['gini', 'entropy'],'min_samples_leaf':[2, 4, 6],
}
grid = GridSearchCV(clf, parameter_space)
grid.fit(x_specific_team, y_true)
print("The accuracy of specific_team after GridSearchCV is {0:.1f}%".format(grid.best_score_ * 100))
grid.fit(x_all, y_true)
print("The accuracy of x_all after GridSearchCV is {0:.1f}%".format(grid.best_score_ * 100))

在这里插入图片描述
在这里插入图片描述
可以看到,增加了随机森林算法之后,胜率又提高了一点

总结

这里只是简单的写了大概的方法,具体实现还是很复杂的,包括特征数据的选取,以及各种模型算法的调优。还要按照联赛去区分训练数据,因为你不同的联赛数据是不可比的,小联赛进球数可能达到10个以上,但是大联赛,进球数可能才几个,所以我们是根据分了联赛数据和公共数据的训练集,目前这两种算法结合的话,目前跑过最高的联赛应该是可以去到80%左右,效果还可以。当然有些联赛暂时可能也只能去到65%。

最后:推荐一个关于用大模型构建的足球数据分析学习软件

1、AiAutoPrediction-基于泊松大模型足球数据分析软件

2、SoccerPredictor-基于决策树大模型足球数据分析软件

在这里插入图片描述

http://www.15wanjia.com/news/155173.html

相关文章:

  • 天津网站设计公司排名工作管理app
  • 优秀网站特点网站开发 弹窗
  • 好的设计作品网站wordpress最漂亮主题
  • 如何在网站上添加qq中国法律服务网app最新下载
  • 视频网站开发工程师有什么软件可以制作图片
  • 福州网站制作策划网站备案信息如何注销吗
  • c 网站开发模板苏州做网站的哪个公司比较好
  • 帮别人做网站需要什么能力网站设计连接数据库怎么做
  • 成都装修网站制作什么是二次开发
  • 湖北中英双语网站建设小学网站模板免费下载
  • 网站搭建详细步骤手机网站注意哪些问题
  • 网站如何备案icp企业为什么要用钉钉
  • 网站系统容量评估潍坊网站定制模板建站
  • 杭州临安网站建设重庆建工招标平台
  • 网站主页设计注意点简单网站建设费用
  • 大学生简历免费制作网站东京购物
  • wordpress获取站点链接南山区住房和建设局网站
  • 珠海建站程序建设网站要注册公司吗
  • 网站空间大小有什么用怎样注册小程序
  • 未支付网站建设挂哪个科目贵州省城乡建设厅网站材料价
  • 登陆中国建设银行网站我的账户密码怎么就有了?怎么清除深圳创意网站
  • wordpress防止f12seo在线外链
  • 企业网站设计方案书青岛做网站的公司哪家好
  • 网站建设项目经理的工作网站描本链接怎么做
  • 去年做啥网站能致富佛山外贸网站建设价位
  • 网站开发工具的是什么学 网站开发
  • 遵义哪里做网站百度网盘官方
  • 界首网站优化公司网站如何做触屏滑动效果
  • 网站双语怎么做学校网站建设方案模板下载
  • 外贸网站推广外包站长一般几个网站