当前位置: 首页 > news >正文

江苏城乡和住房建设厅网站网站建设规划书

江苏城乡和住房建设厅网站,网站建设规划书,东莞市网络优化推广服务机构,登录器显的窗口网站怎么做一.大数据的特点: 数据多,类型多,更新快,更新内容多。 二.分类(classification)与混淆矩阵(confusion matrix) 这里的分类说的是二分类问题,比如说把人分为好人和坏人&a…

一.大数据的特点:

        数据多,类型多,更新快,更新内容多。

二.分类(classification)与混淆矩阵(confusion matrix)

        这里的分类说的是二分类问题,比如说把人分为好人和坏人,即非黑即白。混淆矩阵就是将Actual value和predicted value进行统一整理,其实就是记录模型的准确程度,比如说我们可以规定Actual是好人,Predicted也是好人,那么矩阵值为0.Actual是好人,Predicted是坏人为1.Actual是坏人,Predicted是坏人,值为2等等。这样可以清晰的看到,模型在什么地方出现了偏差。比如说,我们要区分男女,那我们模型规定身高高于一米二的全是男人,那混淆矩阵中肯定会出现很多Actual为女人,Predicted是男人,值为2的情况,那我们就能很清楚的知道,我们要把身高提高了,因为很多女生其实也是很高的。并且classification是一个supervised learning过程,就是从训练资料中学到或建立一个模式或者是函数,并依此模式推测新的实例。

三.聚类(clustering)

         聚类是一种unsupervised learning过程,比如研究超市商品购物组合,用了聚合函数后我们发现牛奶面包黄油可以归为一类(subset),但整个过程中的这些subset都不是我们预先给模型的,都是模型自己发现的,所以是一种unsupervised过程。

四.回归(regression)

        回归其实属于聚类的一种结果,就比如说我们在二维图像上有很多点,最后我们通过clustering我们发现其实有三组点,那我们不能跟小学生似的,对这些点直接画圈,而是通过回归,将其整合成三条曲线,以三个函数表达这三个subset。另外这里引进一个overfitting的概念,过学习,就是在聚类的regression过程中,如何找一条切合的曲线呢,最简单的就是直接把所有点穿起来,肯定准确,但是这条曲线的表达是很复杂的,并且不能泛化,通俗来讲就是,我们自己都不知道曲线接下来会往哪里弯曲,完全取决于新加进来的点,这样显然是不对的。另外在classification也就是supervised learning中,体现在特征的过多选取中,就比如我们要实现人脸识别,我们的特征连他每根头发的摆放位置都包含,头发位置对于人脸识别并不是重要特征,并且储存量巨大,且极难泛化,明显属于过拟合现象。

五.可视化

        一是可以用于拿到数据之后直接对整体进行可视化,也就是通过我们的人眼直接对数据进行大体的分析。二是可以用于将结果呈现给大众。

六.问卷的隐私调查

        例如调查人群当中有多少人吸大麻,我们可以将同一批人群分为两组。一共两个问题,第一个问题是你吸大麻吗?第二个问题是你不吸大麻吗?选其一回答,回答True or False。然后一组直接选其一回答True or False得到p*(true)和p*(false)。另一组问你会回答第一个问题还是第二个问题得到p(回答第一个问题的概率)。那么人群中抽大麻的概率为p(True)的话。就有p*(true) = p * p(true) + (1 - p) (1 - p(true)),那么p(true) = (p*(True) + p - 1)/(2p - 1).

七.cloud computing(云计算)

        总体一句就是“Pay as you go”, 就比如我们平时购物的话,客流量会很少,但是当购物节的时候买东西的人就会很多,但是我们如果按顶流购置服务器的话,就会导致很大的浪费,所以产生了云服务器,也就是需要的时候我们再去租服务器。当然也有别的云服务,比如一些平台,我们平常不怎么使用,那么就是“platform as a service”。

八.survivalship bias

        这个例子就是说,一所军工厂想为飞机加装甲,找了个统计学家来,发现飞回来的飞机都是机翼与尾翼中弹,可能很多人直接就会给这两个地方加装甲,但是我们忽略的问题是击中其他位置的飞机是不是都飞不回来,其实飞回来的飞机没有中弹的地方是否才是最重要的位置呢?比如说油箱,驾驶舱等。这也就启示我们,不要被一些数据的表面现象所迷惑,要结合事实,比如要调查天猫集团商铺数量与每个商铺机器交易额的关系,那我们可能发现商铺数量越多,平均交易额会更大,但我们如果要从这个图看这个行业的发展状况,通常我们会忽略时间这个维度,可能我们看的60万商家,平均每天交易额是20w只是前年的数据,但今年的数据是只有10万商家,每天交易额是2000.也就让我们重视起bias问题,有效解决bias问题的方法就是结合现实来综合考虑。

九.数据清洗

        我们这里说的清洗一般就是去特征值,补数据,或者抽象出一个数据类型。就比如我们要找一块石头大概的密度,我们就可以把石头的形状以及颜色这些特征值去掉,然后只保留体积和质量,那就把一块石头抽象成了一个序对。然后是补数据,比如说人的体重很多人没有填,那我们可以做一个正态分布,对称轴是65kg,让数据显得更为自然。

http://www.15wanjia.com/news/48574.html

相关文章:

  • 域名什么意思举个例子seo报告
  • 做铝锭的网站app拉新推广
  • 建设银行信用卡积分兑换网站怎样在百度上建立网站
  • 做网站公司没签合同谷歌关键词排名查询工具
  • 英文网站建设怎么收费如何制作网站二维码
  • 宁波网站优化建站公司黑帽seo寄生虫
  • 网站建设 有聊天工具的吗百度网址是多少 百度知道
  • 2024新冠又来了吗seo搜索引擎优化心得体会
  • 手把手做网站页面推广策划方案范文
  • 西安网站建设云速百度统计数据分析
  • 织梦建站模板嘉兴seo外包
  • 马尾区建设局网站seo快速排名软件网站
  • 做公司网站排名百度快速收录方法
  • 陕西省建设招投标网站seo的培训课程
  • 贵州省网站建设企业网络营销策略
  • 十堰做网站最专业的公司网络营销推广的总结
  • 二度云自助建站系统2024年瘟疫大爆发
  • wordpress type参数seo建站需求
  • 网页版传奇工作室seo交流
  • 接手一个新的网站应该怎样做汕头网站建设平台
  • 网站主办单位变更广东搜索引擎优化
  • 合肥专业网站制作设计厨师培训
  • 公司企业网站制作教程国际新闻消息
  • 网站未备案可以做经营活动吗如何让自己的网站排名靠前
  • 美国房产网站郑州seo网站有优化
  • 北京市建设工程信息网崔幸福山西免费网站关键词优化排名
  • 网页游戏网站电影百度指数的网址
  • 农村网站建设的意义google搜索引擎入口google
  • 网站制作 企业网站建设哪家好央视新闻最新消息今天
  • 开发app和做网站最新发布的最新