当前位置: 首页 > news >正文

金融网站策划方案中央电视台一套广告价目表

金融网站策划方案,中央电视台一套广告价目表,外贸网站定制,如何使用wp做网站目录 一、说明 二、什么是分层抽样? 三、那么回归又如何呢? 四、回归分层(Stratification on Regression) 一、说明 在同一个数据集中,我们可以看成是一个抽样体。然而,我们如果将这个抽样体分成两份&#…

目录

一、说明

二、什么是分层抽样?

三、那么回归又如何呢?

四、回归分层(Stratification on Regression)


一、说明

        在同一个数据集中,我们可以看成是一个抽样体。然而,我们如果将这个抽样体分成两份,每一份依然保留他们的分布(将一个抽样集合合理地分成两个抽样集合),这是我们在训练中经常需要的。在本文中,我将尝试举例说明如何在保留分布比例的情况下对回归问题进行分割。让我们从基础开始。

        您可以在 Kaggle 笔记本上查看工作示例:笔记本

二、什么是分层抽样?

        分层抽样是从数据集中抽取样本,同时保留两个分组(训练和测试)中类别的比例。例如:

        如果我们的数据中有 30% 来自A 类,其余来自B 类;通过分层,我们的训练和测试分割也应该具有相同的比例(例如30%来自A — 70%来自B。当然,这是一个分类问题的例子,这非常关键,特别是如果我们的数据中存在类别不平衡。如果我们在不使用分层的情况下分割数据,我们可能会得到非常不平衡的分割,这不能正确表示我们模型的泛化能力——或者甚至不给它学习少数类的机会。

三、那么回归又如何呢?

        当我们处理分类问题时,我们的数据中有类别标签,我们现在知道如何处理这种数据。但是回归呢?也许我们可以将这个类别比例定义映射到回归问题的分布比例。如果我们将每个值视为一个单独的类别会怎么样?让我们看看。我们将使用来自Kaggle的“房价竞争”数据。

train_df = pd.read_csv("../input/home-data-for-ml-course/train.csv")
labels = train_df["SalePrice"]
print("Unique label count:", labels.nunique())
print("Data length:", len(train_df), "rows")

        这将产生以下结果:

Unique label count: 663
Data length: 1460 rows

        如果我们这样做,我们将有663个不同的类别,而我们的数据中只有1460行。这会非常稀疏,我们应该实现一些更聪明的方法。让我们看看标签的分布:

plt.figure(figsize=(12,6))
_ = sns.histplot(data=labels, kde=True, stat="density", bins=30)

        我们有一个右偏分布,如果我们随机分割这些数据,似乎对某些折叠来说会有风险。但让我们尝试将其作为基线。

def fold_visualizer(data, fold_idxs, seed_num):fig, axs = plt.subplots(len(fold_idxs)//2, 2, figsize=(15,(len(fold_idxs)//2)*5))fig.suptitle("Seed: " + str(seed_num), fontsize=16)for fold_id, (train_ids, val_ids) in enumerate(fold_idxs):sns.histplot(data=data[train_ids],kde=True,stat="density",alpha=0.15,label="Train Set",bins=30,line_kws={"linewidth":4},ax=axs[fold_id%(len(fold_idxs)//2), fold_id//(len(fold_idxs)//2)])sns.histplot(data=data[val_ids],kde=True,stat="density", color="darkorange",alpha=0.15,label="Validation Set",bins=30,line_kws={"linewidth":4},ax=axs[fold_id%(len(fold_idxs)//2), fold_id//(len(fold_idxs)//2)])axs[fold_id%(len(fold_idxs)//2), fold_id//(len(fold_idxs)//2)].legend()axs[fold_id%(len(fold_idxs)//2), fold_id//(len(fold_idxs)//2)].set_title("Split " + str(fold_id+1))plt.show()

        让我们使用不同的5个种子创建5 个不同的完全随机 KFold 分割并检查它们:

for i in range(5):baseline_kfold = list(KFold(4,shuffle=True,random_state=i).split(labels))fold_visualizer(data=labels,fold_idxs=baseline_kfold,seed_num=i)

        我们可以明确地看到这些分割的分布差异:

  • 种子 0 — 分割 3
  • 种子 2 — 分组 2
  • 种子 4 — 分组 3

        它们彼此之间差异很大,这种情况可能会导致我们的模型在这些折叠上表现不稳定。让我们为回归数据实现更广义的分层。

四、回归分层(Stratification on Regression)

        正如我们所见,将每个连续值视为单独的类别并不明智。但我们可以使用分箱对它们进行分组。我们可以将标签分成k 个大小相等的区间,并将每个区间定义为一个唯一的类。这里,k是我们应该为我们的问题设置的超参数。

def create_cont_folds(df, n_s=8, n_grp=1000, seed=1):skf = StratifiedKFold(n_splits=n_s, shuffle=True, random_state=seed)grp = pd.qcut(df, n_grp, labels=False)target = grpfold_nums = np.zeros(len(df))for fold_no, (t, v) in enumerate(skf.split(target, target)):fold_nums[v] = fold_nocv_splits = []for i in range(num_of_folds):test_indices = np.argwhere(fold_nums==i).flatten()train_indices = list(set(range(len(labels))) - set(test_indices))cv_splits.append((train_indices, test_indices))return cv_splits

我们只需使用pandas库中的.cut()函数即可。它会通过查找数据的最小值和最大值将数据分成相等的间隔。由于我们的分布是偏斜的,我认为使用基于分位数的分箱是有风险的。如果您认为您的分布适合这样做,您可以简单地将.cut()更改为.qcut()

让我们看看当我们使用分层连续分裂时我们会得到什么:

num_of_folds = 4
num_of_groups = 100for i in range(5):cv_splits = create_cont_folds(labels, n_s=num_of_folds, n_grp=num_of_groups, seed=i)fold_visualizer(data=labels,fold_idxs=cv_splits,seed_num=i)

        似乎我们避免了以不同的分布比例拆分数据。我们仍然有差异,但我认为这是可以接受的,因为我们的数据只有约1000行。

        这就是为回归问题生成分层折叠的全部内容!这确实是一种实现我们想要的结果的简单方法,当然,我们可能会尝试实施不同的方法来实现它。

http://www.15wanjia.com/news/32666.html

相关文章:

  • 织梦怎么制作手机网站seo网络营销推广排名
  • 汉中公司网站建设4001688688人工服务
  • 什么伪原创网站好百度官方网站登录
  • 兰州医院网站制作百度一下 官方网
  • 用明星名字做网站谷歌排名网站优化
  • 南阳响应式网站制作营销推广网
  • 平台营销型网站建设东莞seo网络培训
  • 大连建设网站便民服务seo在线培训课程
  • 做天然文化石的网站百度关键词搜索量
  • 网站开发技术联系方式网盘网页版
  • oa系统审批流程seo推广网络
  • 新疆建设兵团考了网站西安seo网站优化
  • 柬埔寨做博彩网站2023半夜免费b站推广
  • 做网站的语言叫什么想做百度推广找谁
  • 手机网站css武汉seo百度
  • 上海做网站找谁企业营销网站
  • 如何查企业做网站是否备案过厦门seo推广外包
  • 乐清做网站建设国内军事新闻最新消息
  • 网站内页深圳网络广告推广公司
  • 想学网站制作seosem是指什么意思
  • 如果做网站b2b平台营销
  • 微舍 微网站 怎么做百度搜索推广
  • 青海医院网站建设公司肇庆seo排名外包
  • 网络服务器怎么连接泰州网站建设优化
  • 360云主机可以建设网站吗admin5站长网
  • 网站规划建设与管理维护课后答案长沙seo网络公司
  • 南宁手机网站制作廊坊网站
  • java制作网站手机网站建设公司
  • 网站页面组成手机网站怎么优化
  • 好看的网站界面设计郑州seo推广外包