百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

LC建模历史最详细(四 建模准备-1)

toyiye 2024-06-21 12:24 9 浏览 0 评论

第四章节内容点理解有困难,就不堆文字来,拆成3个小篇章,本文主要讲解决策树变量分箱。

决策树变量分箱

提取重要性变量

删除共性变量+样本均衡

本章节是建模前的重要处理部分,前面我们已经对数据进行清洗、转换,我们的样本数据目前已经基本全部数值化,并完成填充转换和延伸处理。由于建模的核心是对数值进行处理。第三章节处理后的数据,并不能马上应用于建模处理。建模对数据的分布和上下限等特征是敏感的。本章节中按照连续变量分箱、重要性排序、共性变量需要删除(与业务指标关联波动一样对建模冗余,需要删除)顺序、样本平衡进行处理,目的上降低建模干扰,提升建模效率和准确度。如下:

    1、连续变量分箱:通过决策树找到分类节点,然后分箱。
    2、随机森林筛选重要变量:计算IV,对于IV=inf无穷节点进行合并重算,删除IV<=0.003的列
    3、共性变量删除:计算corr关联值,对于vif>10,cor>0.7列 按 iv值从大到小删除对列,直到IV无cor>0.7的列组合
    4、样本拆分SMOTE`

热独编码oneHotCode:上章节中针对文本等离散分类数据,在处理时,直接赋值编码(类似我们日常的字典数据),由于分类数据存在大小,会造成模型计算时讲数值大小进行判断参数干扰,故使用等距的向量进行分类。这种处理方法会降低分类字典的数值大小影响,但由于向量会增加列的数目,增大建模损耗。

连续列的分箱处理**(无监督学习分类场景)**

这里使用决策树进行自动分箱,自动解析决策树输出pdf分类,采集dot信息,然后(网上大多文章是产生决策树pdf节点图,手工提取节点信息后进行分箱处理) 。这里以int_rate分箱前后的可视化,三张图分别是决策树dot图、分箱前柱状图、分箱后柱状图。可以看到分箱后数据边界清晰、差异明显。以下是重点过程。

1.筛选连续变量:按照指标值分布中类型lisan_cols_point>60归为连续变量。2.检查是否正态分布。3.提取单列升维度:网上有多列数据分类的文章,类似行为分类/客户vip分类等。默认需要2维以上,单列处理需要扩维。4.确认深度和叶子:决策树可以指定树的深度和叶子结点个数。保证分类输出符合最终的业务要求。5.提取节点分箱:输出包含可视化的决策树pdf,自动解析not的dot值,box_col_to_df进行分箱处理。


if 'modelPrepare' in stage:
    print("四、建模准备")
    start_time = time.time()
    df = df_lcs  # df_lcs为每阶段覆盖数据 区别于df
    lianxu_cols = [i for i in df.columns if len(df[i].value_counts()) >= lisan_cols_point]
    lisan_cols = [i for i in df.columns if len(df[i].value_counts()) < lisan_cols_point]
    print("lisan_cols {}={}".format(len(lisan_cols), lisan_cols))
    print("lianxu_cols {}={}".format(len(lianxu_cols), lianxu_cols))
    # print(getrow(df, 4, data_disc))  # 单行

print("1、 连续变量分箱-决策树:分箱方法包括有监督的 卡方分箱 KS分箱和决策树分箱,无监督的 等宽 等频等分箱,"
          "此处用决策树分箱open_acc,观察分享结果的覆盖度,可以通过散点图进行观察。")
    normal_cols = [i for i in lianxu_col if o_ml.check_normal_distribution(df, i).pvalue > 0.05]
    print('Kstest.pvalue>0.05符合正太分布:{}'.format(normal_cols))
    cut_dict = {}
    for lianxu_col in lianxu_cols:  # 连续列-决策树分箱,获取切割点
        x_data = df[lianxu_col]
        x1_data = x_data[:, np.newaxis]  # sklearn要求x,至少是二维数据,所以需要增加一维,np.newaxis 的位置决定了增加维度的位置
        model = DecisionTreeClassifier(max_depth=4, min_samples_leaf=21054).fit(x1_data, df["loan_condition_int"])
        nodes = model.tree_.threshold  # 抽取决策树各个节点的分类值X[0]
        nodes = np.sort(nodes[nodes > 0]).round(3)
        cut_dict[lianxu_col] = nodes.tolist()  # 记录各列的分箱值
        dot_data = export_graphviz(model)  # 显示图形pdf,需要提前安装graphviz,关于决策树DecisionTreeClassifier需要详细了解下参数、输出及调优
        graph = pydotplus.graph_from_dot_data(dot_data)
        graph.write_pdf(base_dir + ("决策树{}.pdf".format(lianxu_col)))  # 采集分支节点值

    print("连续变量分箱--节点如下:")
    print(cut_dict)  # 打印各列的分箱值,可与"决策树*.pdf"文件X[0]进行核对。
    for col, nodes in cut_dict.items():
        o_ml.lisan_pivot_table(df, [col], 'loan_condition_int', data_disc, base_dir, '{}分箱前'.format(col))  # 离散-柱状图
        o_ml.box_col_to_df(df, col, nodes, base_dir)  # 分箱
        if str(df[col].dtype) not in 'int32,int64,float64':
            df[col] = df[col].astype(float)
        o_ml.lisan_pivot_table(df, [col], 'loan_condition_int', data_disc, base_dir, '{}分箱后'.format(col))  # 离散-柱状图

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码