特征工程资料整理,如何从数据中挖掘特征
创始人
2024-05-02 22:12:09
0

特征工程资料整理,如何从数据中挖掘特征

    • 一、特征工程是什么
    • 二、探索性数据分析EDA
      • 参考资料:
      • 1. pandas_profiling【推荐】
      • 2. Sweetviz
      • 3. pandasgui
      • 4.D-tale【推荐】
      • 结论
    • 三、特征处理
      • 参考资料:
      • 1. 数值特征
        • ⭐️⭐️⭐️⭐️⭐️数值特征小结:
        • 什么时候用归一化?什么时候用标准化?
      • 2. 类别特征
        • ⭐️⭐️⭐️⭐️⭐️类别特征小结:
      • 3. 时间特征
        • ⭐️⭐️⭐️⭐️⭐️时间特征小结:
      • 4. 空间特征
      • 5. 文本特征
      • 6. 图像特征
      • 7. 音频特征
      • 8. 其他常见方法

一、特征工程是什么

数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限而已。

什么是特征工程?比如金融信贷申请反欺诈场景下,当一个新的用户来申请贷款,我们如何评估一个用户是欺诈用户还是正常用户,那么就需要找到这二者在哪些特征上表现存在差异,通过这些特征来进行区分寻找基本特征、构建组合特征来有效地区分不同label的样本,这个就是特征工程。

特征工程往往是打开数据密码的钥匙,是数据科学中最有创造力的一部分。
建模就是从数据中学习到insights(洞见)过程,这个过程其实是很曲折的,他要经过数据的表达,模型的学习两步。
数据的表达就是原始数据经过clean and transformer得到features的过程,即为特征工程。
特征工程类似于炼丹术士的精炼过程。

他的作用就是把人的知识融入到数据表达中,减轻模型的负担,让模型更容易学习到本质的知识。

二、探索性数据分析EDA

EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程。

参考资料:

  1. https://mp.weixin.qq.com/s/CIZjJg1sEsbkToYjSlRaUQ
  2. https://zhuanlan.zhihu.com/p/347993858
  3. https://zhuanlan.zhihu.com/p/85967505

1. pandas_profiling【推荐】

这个属于三个中最轻便、简单的了。它可以快速生成报告,一览变量概况。
总共提供了六个部分内容:概述、变量、交互、相关性、缺失值、样本。

2. Sweetviz

Sweetviz是另一个Python的开源代码包,仅用一行代码即可生成漂亮的EDA报告。与Pandas Profiling的区别在于它输出的是一个完全独立的HTML应用程序。
Sweetviz优势:

  • 分析有关目标值的数据集的能力
  • 两个数据集之间的比较能力

Sweetviz缺点:

  • 变量之间没有可视化,例如散点图
  • 报告在另一个标签中打开

3. pandasgui

mac使用有报错

PandasGUI与前面的两个不同,PandasGUI不会生成报告,而是生成一个GUI(图形用户界面)的数据框,我们可以使用它来更详细地分析我们的Dataframe。
pandasGUI优势:

  • 可以拖拽
  • 快速过滤数据
  • 快速绘图

pandasGUI缺点:

  • 没有完整的统计信息
  • 不能生成报告

4.D-tale【推荐】

面向Pandas 中的DataFrame,D-Tale库可以进行可视化。和其他可视化不太一样的,D-Tale生成交互式图形界面,支持在其中定义所需的数据外观,并根据需要对数据进行探索性分析。
d-tale优势:

  • 功能强大,描述性分析,重复/缺失/相关/时序/异常值分析等
  • 自定义可视化,集成折线/散点/柱状/词云等多种图表
  • 一键导出代码,支持将操作转换为代码,可直接复制用于项目中
  • 支持中文汉化

d-tale缺点:

  • 没有完整的统计信息
  • 不能生成报告

结论

Pandas Profiling、Sweetviz和PandasGUI都很不错,旨在简化我们的EDA处理。在不同的工作流程中,每个都有自己的优势和适用性,4个工具具体优势如下:

  • Pandas Profiling 适用于快速生成单个变量的分析报告。
  • Sweetviz 适用于数据集之间和目标变量之间的分析。
  • PandasGUI适用于具有手动拖放功能的深度分析。
  • D-tale适用于数据深入探索和快速分析的场景。

三、特征处理

具体采取哪一种处理方式不仅依赖于业务和数据本身,还依赖于所选取的模型。

参考资料:

  1. https://cloud.tencent.com/developer/article/1388206
  2. https://mp.weixin.qq.com/s/vKQcHT6LM1M2PfTKfHbGxQ
  3. https://mp.weixin.qq.com/s/W6o_U0pyd5K4mTqGVLl9sQ
  4. https://mp.weixin.qq.com/s/kt_rK-pM4FWGfR5E-OeJDg
  5. https://mp.weixin.qq.com/s/emw05TSwjd-szqgirbpk9A
  6. https://mp.weixin.qq.com/s/CWUFLMK0ZhDuqWXiveoBpg
  7. https://mp.weixin.qq.com/s/fdEK5ootbX9kZFdXmvkohA
  8. https://mp.weixin.qq.com/s/8LIj1_RG7ub8Cpg-OlYzfA
  9. https://mp.weixin.qq.com/s/hsB_KMn5zTKMq1Gpj0KOzQ

1. 数值特征

⭐️⭐️⭐️⭐️⭐️数值特征小结:

  • 数据规范化
    • 归一化
    • 标准化
    • Robust Scaler特征缩放
    • 截断(降低精度以减少噪音)
    • 缩放
      • 标准化缩放(Z缩放)
      • 最大最小值缩放/最大绝对值缩放
      • 基于范数的归一化(L1/L2范数)
      • 平方根缩放/对数缩放(处理长尾分布且取值为正数的数值非常有效,统计学中称为方差稳定的变换)
      • 有异常点的健壮缩放(中位数代替均值,分位数代替方差)
  • 二值化
  • 分箱
    • 有监督分箱
      • 卡方分箱
      • 最小熵法分箱
    • 无监督分箱
      • 等距分箱
      • 等频分箱
      • 聚类模型分箱
  • 聚合特征构造
    • 中位数、平均值、最大最小、标准差、方差、频数等
    • 特征交叉
  • 转换特征构造
    • 单调转换(幂变换、log对数变换、绝对值、倒数转换、平方根转换、Box Cox等)、线性组合、多项式组合、比例、排名编码、异或值
    • 非线性编码(多项式核、高斯核等编码)
    • 基于业务理解
      • 单价、销售量、利润、增长额等

什么时候用归一化?什么时候用标准化?

来源:如何进行时间序列的特征工程

  1. 如果对输出结果范围有要求,用归一化。
  2. 如果数据较为稳定,不存在极端的最大最小值,用归一化。
  3. 如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。

2. 类别特征

⭐️⭐️⭐️⭐️⭐️类别特征小结:

  • 标签编码(Label Encoder)
  • 分层编码
  • 散列编码(先散列后独热,避免特征矩阵过于稀疏)
  • 哈希编码(Hash Encoder)
  • 独热编码(One-hot Encoder)
  • 计数编码(Count Encoder)
  • 计数排名编码
  • 直方图编码(Bin Encoder)
  • WOE证据权重编码
  • 目标编码(Target Encoder)
  • 平均编码(Mean Encoder)
  • 模型编码(Model Encoder)
  • Ordinal Encoder顺序编码(类似Label Encoder)
  • CatBoostEncoder
  • 神经网络embedding
  • lgb类别特征处理
  • 特征交叉组合
    • 类别特征之间交叉组合
    • 类别特征和数值特征之间交叉组合

我这里总结了以上类别编码方法的区别:
在这里插入图片描述

总结来说,关于类别特征,有以下心得:
(1) 统计类编码常常不适用于小样本,因为统计意义不明显。
(2) 当训练集和测试集分布不一致时,统计类编码往往会有预测偏移问题,所以一般会考虑结合交叉验证
(3) 编码后特征数变多的编码方法,不适用于高基类的特征,会带来稀疏性和训练成本。
(4) 没有完美的编码方法,但感觉标签编码、平均编码、WOE编码和模型编码比较常用。

3. 时间特征

⭐️⭐️⭐️⭐️⭐️时间特征小结:

  • 1、时间特征
    • 连续值时间特征
      • 持续时间(单页浏览时长)
      • 间隔时间(上次购买距离现在的时长)
    • 离散型时间特征
      • 时间拆解
        • 年;月;日;时;分;秒;一天中的第几分钟;星期几;一年中的第几天;一年中的第几个周;一年中的哪个季度;一天中哪个时间段:凌晨、早晨、上午、中午、下午、傍晚、晚上、深夜;
      • 时间判断
        • 是否闰年;是否月初;是否月末;是否季节初;是否季节末;是否年初;是否年尾;是否周末;是否节假日;是否工作日;两个时间间隔之间是否包含节假日/特殊日期;
  • 2、时间序列特征
    • 统计聚合
      • 简单特征:极值、分位数、缺失数、重复值
      • 集中趋势:平均值、最小/最大值
      • 离散趋势:极差、扩散值(标准差,平均绝对偏差,四分位差等)、离散系数
      • 分布:偏态系数、峰值个数、相邻峰差值、峰位置
    • 时序复合特征
      • 趋势特征:上升/下降趋势、某段时间对某段时间的变化情况
      • 周期性:周周期性、月周期性、年周期性
      • 窗口特征:同比、环比、滞后值(T-1作为T的变量)
        • 滑动窗口(根据指定的单位长度来框住时间序列,每次滑动一个单位)
        • 滚动窗口(根据指定的单位长度来框住时间序列,每次滑动窗口长度的多个单位)
      • 自相关性特征:自相关系数,与自身左移N个时间空格的时间序列相关系数
      • 其他:历史波动率、瞬间波动率、隐含波动率、偏度、峰度、瞬时相关性等
    • 结合时间维度的聚合特征
      • 特定日期聚合
        • 特定日:注册首日页面访问时长
        • 特定日期区间:国庆期间APP用户活跃数,每天下午平均客流量
      • 最近时间聚合
        • 近N天APP登录天数

4. 空间特征

位置特征:
经纬度、POI、AOI、附近建筑物、路径、出发点、终点、常去点、收藏点
经纬度做散列得到空间区域分块,坐标拾取街道ID、城市ID等,位置与位置之间的距离(欧氏距离、球面距离、曼哈顿距离、真实街道距离)

5. 文本特征

  • 词袋模型
  • 词嵌入模型
  • 语料构建
  • 文本清洗
  • 分词
    • 词性标注
    • 词形还原和词干提取
    • 文本统计特征
    • N-Gram模型
  • Skip-Gram模型
    • 词集模型
    • 词袋模型
    • TF-IDF
  • 余弦相似度
  • Jaccard相似度
  • Levenshtein(编辑距离)
  • 隐性语义分析
  • Word2Vec

6. 图像特征

  • SIFT
  • Gabor
  • HOG

7. 音频特征

  • 梅尔滤波
  • Bark滤波
  • FBank
  • MFCC

8. 其他常见方法

降维方面:

  • PCA
  • ICA
  • LDA

相关内容

热门资讯

安卓系统自带的网页,功能与特色... 你有没有发现,每次打开安卓手机,那熟悉的系统界面里总有一个默默无闻的小家伙——安卓系统自带的网页浏览...
美咖云系统安卓版,开启智能生活... 你有没有发现,最近手机上多了一个叫“美咖云系统安卓版”的小家伙?它就像一个魔法师,轻轻一点,就能让你...
安卓系统推荐最好的手机,盘点性... 你有没有想过,拥有一部性能卓越的手机,就像是拥有了移动的宝藏库?在这个信息爆炸的时代,一部好手机不仅...
安卓11系统能精简吗,释放潜能 你有没有发现,随着手机越来越智能,系统也越来越庞大?安卓11系统,这个最新的操作系统,是不是也让你觉...
安卓自动重启系统软件,揭秘原因... 手机突然自动重启,是不是感觉整个人都不好了?别急,今天就来和你聊聊这个让人头疼的安卓自动重启系统软件...
苹果手机x刷安卓系统,探索安卓... 你有没有想过,你的苹果手机X竟然也能刷上安卓系统?是的,你没听错,就是那个一直以来都和我们苹果手机X...
安卓系统智商低吗,智商低下的真... 你有没有想过,为什么安卓系统的智商总被调侃得好像有点低呢?是不是觉得它总是慢吞吞的,有时候还犯点小错...
安卓系统手机联系人,揭秘你的社... 你有没有发现,手机里的联系人列表就像是一个小小的社交圈呢?里面藏着我们的亲朋好友、工作伙伴,甚至还有...
安卓系统免费铃声下载,打造个性... 手机里那首老掉牙的铃声是不是让你觉得有点out了呢?别急,今天就来给你支个招,让你轻松给安卓手机换上...
安卓系统用哪个桌面好,打造个性... 你有没有发现,手机桌面可是我们每天都要面对的“脸面”呢?换一个好看的桌面,心情都能跟着好起来。那么,...
虚拟大师是安卓10系统,功能与... 你知道吗?最近在手机圈里,有个新玩意儿引起了不小的轰动,那就是虚拟大师!而且,更让人惊喜的是,这个虚...
安卓系统与苹果优缺点,系统优缺... 说到手机操作系统,安卓和苹果绝对是两大巨头,它们各有各的特色,就像两道不同的美味佳肴,让人难以抉择。...
安卓win双系统主板,融合与创... 你有没有想过,一台电脑如果既能流畅运行安卓系统,又能轻松驾驭Windows系统,那该有多爽啊?没错,...
安卓系统可精简软件,轻松提升手... 你有没有发现,手机里的安卓系统越来越庞大,软件也越装越多,有时候感觉手机就像个“大肚子”,不仅运行速...
安卓系统基于linux的代码,... 你有没有想过,那个陪伴你每天刷抖音、玩游戏、办公的安卓系统,其实背后有着一套复杂的基于Linux的代...
苹果和安卓的拍照系统,谁更胜一... 你有没有发现,现在手机拍照已经成为我们生活中不可或缺的一部分呢?无论是记录生活的点滴,还是捕捉美丽的...
苹果和安卓系统不同吗,系统差异... 你有没有想过,为什么你的手机里装的是苹果的iOS系统,而朋友的手机却是安卓系统呢?这两种系统,看似都...
安卓系统有多少级,揭秘其多级架... 你有没有想过,那个陪伴我们日常生活的安卓系统,它其实有着丰富的层级结构呢?没错,就是那个让我们的手机...
华为鸿蒙系统与安卓的,技术融合... 你知道吗?最近科技圈可是炸开了锅,华为鸿蒙系统与安卓的较量成为了大家热议的话题。这不,今天我就来给你...
什么安卓手机是苹果系统,搭载苹... 你有没有想过,为什么有些人宁愿花大价钱买苹果手机,而有些人却对安卓手机情有独钟呢?其实,这个问题背后...