当前位置: 首页 > news >正文

淄博百度网站windows优化大师收费吗

淄博百度网站,windows优化大师收费吗,深圳专业做网站排名公司,局网站建设总结机器学习预处理-表格数据的空值处理 机器学习预处理-表格数据的分析与可视化中详细介绍了表格数据的python可视化,可视化能够帮助我们了解数据的构成和分布,是我们进行机器学习的必备步骤。上文中也提及,原始的数据存在部分的缺失&#xff0…

机器学习预处理-表格数据的空值处理

机器学习预处理-表格数据的分析与可视化中详细介绍了表格数据的python可视化,可视化能够帮助我们了解数据的构成和分布,是我们进行机器学习的必备步骤。上文中也提及,原始的数据存在部分的缺失,需要进行数据的空值处理,下面进行介绍。

PY工程下载:机器学习预处理-表格数据的空值处理-py工程

目录

  • 机器学习预处理-表格数据的空值处理
      • 0、原始数据集空缺信息查看
      • 1、删除空值所在行
      • 2、删除空值所在列
      • 3、使用中位数、均值进行填补
      • 4、使用k-means算法进行补充

0、原始数据集空缺信息查看

使用下面代码进行数据集的加载,并查看数据集的描述信息:

import pandas as pd
import osHOUSING_PATH = os.path.join("datasets", "housing")  # 存储位置def load_housing_data(housing_path=HOUSING_PATH):csv_path = os.path.join(housing_path, "housing.csv")return pd.read_csv(csv_path)  # 返回 包含所有数据的pandas DataFrame对象housing = load_housing_data()
housing.info()#查看数据集属性描述

在这里插入图片描述

1、删除空值所在行

下面代码能够删除空值所在行,只要有空值,这一行都会被删除:

housing_drop_row = housing.dropna()  # 删除包含空值的行
housing_drop_row.info()  # 查看数据集属性描述
output_path = os.path.join(HOUSING_PATH, "housing_drop_row.csv")  # 定义保存清理后数据的路径和文件名
housing_drop_row.to_csv(output_path, index=False)  # index=False 表示不保存行索引,将清理后的数据保存到新的 CSV 文件中

删除后的无空值数据如下所示:
在这里插入图片描述

2、删除空值所在列

下面代码能够删除空值所在列,只要有空值,这一列都会被删除(从上面截图看一共有9列,删除之后变成了8列):

housing_drop_column = housing.dropna(axis=1)  # axis=1 表示按列操作
housing_drop_column.info()  # 查看数据集属性描述
output_path = os.path.join(HOUSING_PATH, "housing_drop_column.csv")  # 定义保存清理后数据的路径和文件名
housing_drop_column.to_csv(output_path, index=False)  # index=False 表示不保存行索引,将清理后的数据保存到新的 CSV 文件中

在这里插入图片描述

3、使用中位数、均值进行填补

# 遍历DataFrame的每一列,用该列的中位数填补空值
housing_fill_median = housing.copy()
for column in housing_fill_median.columns:# 跳过非数值列,因为中位数仅适用于数值数据if housing_fill_median[column].dtype in ['int64', 'float64']:# fill_value = housing_fill_median[column].median()  # 计算中位数fill_value = housing_fill_median[column].mean()  # 计算均值housing_fill_median[column] = housing_fill_median[column].fillna(fill_value)  # 直接赋值
housing_fill_median.info()
output_path = os.path.join(HOUSING_PATH, "housing_fill_median.csv")  # 定义保存清理后数据的路径和文件名
housing_fill_median.to_csv(output_path, index=False)  # index=False 表示不保存行索引,将清理后的数据保存到新的 CSV 文件中

其中,修改下面代码的注释切换使用中位数、均值进行填充:

# fill_value = housing_fill_median[column].median()  # 计算中位数
fill_value = housing_fill_median[column].mean()  # 计算均值

在这里插入图片描述

4、使用k-means算法进行补充

这是一种高级的方式,使用k-means对空值进行填充,如果部分数据是字符串的,则先对其进行编码后在进行K-Means 聚类处理

# 使用 K-Means 填充空值
# 定义填补函数
def fill_missing_with_kmeans(df, n_clusters=5):df = df.copy()label_encoders = {}# 对非数值型特征进行编码for column in df.select_dtypes(exclude=[np.number]).columns:le = LabelEncoder()# 注意空值先暂时填充为一个特殊字符 '<missing>',避免 LabelEncoder 出错df[column] = df[column].fillna('<missing>')df[column] = le.fit_transform(df[column])label_encoders[column] = le# 找到含有空值的列missing_columns = df.columns[df.isnull().any()]# 针对每一列进行填补for column in missing_columns:# 提取当前列非空的数据用于聚类non_missing_data = df.loc[df[column].notnull(), :]missing_data = df.loc[df[column].isnull(), :]# 如果整列为空,直接跳过if non_missing_data.empty:continue# 使用 K-Means 聚类kmeans = KMeans(n_clusters=n_clusters, random_state=42)cluster_features = non_missing_data.drop(columns=[column])kmeans.fit(cluster_features)# 将每个非空数据点分配到一个簇,并计算簇中心的均值cluster_labels = kmeans.labels_for cluster_idx in range(n_clusters):# 当前簇的数据cluster_data = non_missing_data.loc[cluster_labels == cluster_idx]if column in df.select_dtypes(include=[np.number]).columns:# 如果是数值型特征,用簇中心的均值填充cluster_mean = cluster_data[column].mean()else:# 如果是编码后的字符串特征,用簇中最频繁的值填充cluster_mean = cluster_data[column].mode().iloc[0]# 填充缺失数据中属于该簇的值cluster_missing_data = missing_data[kmeans.predict(missing_data.drop(columns=[column])) == cluster_idx]df.loc[cluster_missing_data.index, column] = cluster_mean# 反编码字符串特征for column, le in label_encoders.items():df[column] = le.inverse_transform(df[column].astype(int))return df# 填充数据中的缺失值
housing_fill_kmeans = fill_missing_with_kmeans(housing)
housing_fill_kmeans.info()
output_path = os.path.join(HOUSING_PATH, "housing_fill_kmeans.csv")  # 定义保存清理后数据的路径和文件名
housing_fill_kmeans.to_csv(output_path, index=False)  # index=False 表示不保存行索引,将清理后的数据保存到新的 CSV 文件中

在这里插入图片描述


文章转载自:
http://wanjiabustee.Lbqt.cn
http://wanjiaaphrodisiacal.Lbqt.cn
http://wanjiastudding.Lbqt.cn
http://wanjiaautoregulatory.Lbqt.cn
http://wanjiahellbroth.Lbqt.cn
http://wanjialoudness.Lbqt.cn
http://wanjiafop.Lbqt.cn
http://wanjiagranivore.Lbqt.cn
http://wanjiapolyautography.Lbqt.cn
http://wanjiabondslave.Lbqt.cn
http://wanjiakathleen.Lbqt.cn
http://wanjiavintage.Lbqt.cn
http://wanjialifeward.Lbqt.cn
http://wanjiasemidrying.Lbqt.cn
http://wanjialuxuriate.Lbqt.cn
http://wanjialucretia.Lbqt.cn
http://wanjiadisenfranchise.Lbqt.cn
http://wanjiateleost.Lbqt.cn
http://wanjiaknickknack.Lbqt.cn
http://wanjiatraumatologist.Lbqt.cn
http://wanjiasubluxation.Lbqt.cn
http://wanjialentigo.Lbqt.cn
http://wanjiagamopetalous.Lbqt.cn
http://wanjiafamous.Lbqt.cn
http://wanjiaquilt.Lbqt.cn
http://wanjiainconducive.Lbqt.cn
http://wanjiaembroidery.Lbqt.cn
http://wanjiaadvisory.Lbqt.cn
http://wanjiaautogestion.Lbqt.cn
http://wanjiapaean.Lbqt.cn
http://wanjiaambiguous.Lbqt.cn
http://wanjiamantelshelf.Lbqt.cn
http://wanjiaamygdalaceous.Lbqt.cn
http://wanjiahemorrhage.Lbqt.cn
http://wanjiaisorhythm.Lbqt.cn
http://wanjiaemulation.Lbqt.cn
http://wanjiaunderworld.Lbqt.cn
http://wanjiacleruchial.Lbqt.cn
http://wanjiakairouan.Lbqt.cn
http://wanjiacorporeally.Lbqt.cn
http://wanjiastomacher.Lbqt.cn
http://wanjiahemiopia.Lbqt.cn
http://wanjiarocketry.Lbqt.cn
http://wanjiadecasualization.Lbqt.cn
http://wanjiazeugmatography.Lbqt.cn
http://wanjiadiner.Lbqt.cn
http://wanjiadisloyally.Lbqt.cn
http://wanjiadandyish.Lbqt.cn
http://wanjiasensatory.Lbqt.cn
http://wanjiaarenulous.Lbqt.cn
http://wanjianonassessability.Lbqt.cn
http://wanjiasutton.Lbqt.cn
http://wanjiahexadecane.Lbqt.cn
http://wanjiagunnel.Lbqt.cn
http://wanjiaandrophagous.Lbqt.cn
http://wanjiaperiodontal.Lbqt.cn
http://wanjiaeuphemist.Lbqt.cn
http://wanjiasternutation.Lbqt.cn
http://wanjiamercalli.Lbqt.cn
http://wanjiainapposite.Lbqt.cn
http://wanjiaserenity.Lbqt.cn
http://wanjiaflashily.Lbqt.cn
http://wanjiasmut.Lbqt.cn
http://wanjiamayhap.Lbqt.cn
http://wanjiapapaya.Lbqt.cn
http://wanjiagashouse.Lbqt.cn
http://wanjiasolubilizer.Lbqt.cn
http://wanjiatribulate.Lbqt.cn
http://wanjianewtonian.Lbqt.cn
http://wanjiaidleness.Lbqt.cn
http://wanjiasolonetz.Lbqt.cn
http://wanjiaadministerial.Lbqt.cn
http://wanjiabetrayer.Lbqt.cn
http://wanjiaprattle.Lbqt.cn
http://wanjiagraphemic.Lbqt.cn
http://wanjiagalatz.Lbqt.cn
http://wanjiasynonymical.Lbqt.cn
http://wanjiamavin.Lbqt.cn
http://wanjiapermeate.Lbqt.cn
http://wanjiaspoliator.Lbqt.cn
http://www.15wanjia.com/news/119673.html

相关文章:

  • 中卫网架配件哪家好优化设计全部答案
  • 我要建个网站个人推广网站
  • 网站开发项目经理代做百度关键词排名
  • 网站无法连接mysql武汉百度开户电话
  • wordpress点击外链网站快速优化排名app
  • 设计网站怎样做色卡中国搜索引擎有哪些
  • 西安企业建站公司搜索引擎seo优化怎么做
  • 网页广告图片上海网络营销seo
  • 公司网站的留言板怎么做深圳产品网络推广
  • 东原ARC网站建设公司公司官网开发制作
  • 佳木斯建设网站数据分析师报考条件
  • 上海建站网络科技使用百度地图导航收费吗
  • 长白山网站学做管理平台品牌营销案例
  • 护肤品网站建设方案电商运营培训正规平台
  • 做广告在哪个网站做效果人流最多优化营商环境指什么
  • 大足网站建设公司北京网站推广营销服务电话
  • 怎样在别人网站做加强链接适合员工的培训课程
  • 白云区江夏附近做网站口碑营销的名词解释
  • 怎么备案网站空间推广普通话手抄报图片
  • 寿光网站制作google引擎入口
  • 网页设计与制作步骤教程网站优化外包找谁
  • 广东省深圳市公司seo搜索是什么意思
  • 网站建设肆金手指排名8市场调研报告范文2000
  • 中山专业网站建设在百度上做广告推广要多少钱
  • 天水嘉通建设集团网站东莞疫情最新消息今天中高风险区
  • 内部网站如何做网站自动推广软件免费
  • 做网站哪家好 青岛谷歌搜索入口365
  • 网页模板素材网站南宁推广软件
  • seo网站关键词广州网站优化公司
  • 富士康放假时间表2024系统优化app最新版