数值处理--特征工程
admin
2024-03-23 14:07:55
0

1.特征工程

  • 特征归一化 问:为什么需要对数值类型的特征做归一化? 分析解答: 为了消除数据特征之间的量纲影响,对特征进行归一化处理,使得不同指标之间具有可比性。 常用方法: (1)线性函数归一化(Min-Max Scaling)对原始数据进行线性变换,使结果映射到【0,1】范围,实现对原始数据的等比缩放。 (2)零均值归一化(Z-Score Normalization)将原始数据映射到均值为0、标准差为1的分布上。

举例梯度下降实例说明归一化的重要性,若两个特征的取值范围不一样,则在学习速率相同的情况下,范围小的特征更新速度会大于取值范围大的特征,需要较多的迭代才能找到最优解。若将两个特征归一化到相同的数值区间,两特征的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。

实际运用中,通过梯度下降法求解的模型通常需要归一化,包括线性回归、逻辑回归、支持向量机、神经网络等。但对决策树不适用。 2.类别型特征

  • 类别型特征指在有限选项内取值的特征。
  • 类别型特征原始输入通常是字符串形式
  • 决策树可以直接处理字符串形式的输入
  • 逻辑回归、支持向量机等模型,类别型特征必须经过处理转换成数值型特征才能正确工作。

问题:在对数据进行预处理时,应该怎样处理类别型特征? 知识点:

  • 序号编码:用于处理类别间具有大小关系的数据。高3,中2,低1
  • 独热编码:用于处理类别间不具有大小关系的特征。 对于类别取值较多的情况下使用独热编码需要注意: (1)使用稀疏向量来节省空间。 (2)配合特征选择来降低维度。高维度特征会带来的问题:一:在K近邻算法中,高维空间下两点之间的距离很难得到有效衡量;二逻辑回归中,参数的数量会随着维度的增高而增加,容易引起过拟合;三通常只有部分维度对分类、预测有帮助。
  • 二进制编码:先给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。

3 高维组合特征的处理 问题:什么是组合特征?如何处理高维组合特征?

为了提高复杂关系的拟合能力,在特征工程中疆场会把一阶离散特征两两组合,构成高阶组合特征。 将组合的特征分别用k维的低维向量表示。

4 组合特征 问题:怎样有效找到组合特征? 基于决策树的特征组合寻找方法。 给定原始输入该如何有效地构造决策树?可采用梯度提升树,该方法的思想是每次都在之前构建的决策树的残差上构建下一颗决策树。

5 文本表示模型 问题:有哪些文本表示模型?它们各有什么优缺点?

  • 词袋模型和N-gram模型 最基础的文本表示模型是词袋模型。就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。用TF-IDF计算每个词的权重,如果一个单词在很多的文章里出现,那么它可能是一个比较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此对权重做一定惩罚。 将连续出现的n个词组成的词组也作为一个单独的特征放到向量表示中去,构成N-gram。
  • 主体模型 用于从文本库中发现有代表性的主题,并且能够计算出每篇文章的主题分布。
  • 词嵌入与深度学习模型 词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间上的一个稠密向量。

深度学习模型提供了一种自动地进行特征工程的方式,模型中的每个隐层都可以认为对应着不同抽象层次的特征。 与全连接的网络结构相比,卷积神经网络和循环神经网络一方面很好地抓住了文本的特性,另一方面也减少了网络中待学习的参数,提高了训练速度,并且减低了过拟合的风险。

6 Word2Vec Word2Vec是目前最常用的词嵌入模型之一,实际是一种浅层的神经网络模型,有两种网络结构:CBOW,Skip-gram

知识点:Word2Vec,因狄利克雷模型LDA,CBOW,Skip-gram

问题:Word2Vec是如何工作的?它和LDA有什么区别和联系? CBOW的目标是根据上下文出现的词语来预测当前词的生成概率; Skip-gram是根据当前词来预测上下文中各词的生成概率。

区别和联系:

  • LDA是利用文档中单词的共现关系来对单词按主题聚类,也可以理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。
  • Word2Vec是对“上下文-单词”矩阵进行学习,其中上下文由周围的几个单词组成,由此得到的词向量表示更多地融入了上下文共现的特征。也就是说,如果两个单词所对应的Word2Vec向量相似度较高,那么他们很可能经常在同样的上下文中出现。

主题模型和词嵌入两方法的差异: 主题模型和词嵌入两类方法最大的不同在于模型本身

  • 主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式
  • 词嵌入模型一般表达为神经网络的形式

7 图像数据不足时的处理方法

知识点:迁移学习、生成对抗网络、图像处理、上采样技术、数据扩充 问题:在图像分类任务中,训练数据 不足会带来什么问题?如何缓解数据量不足带来的问题? 分析: 一个模型所能提供的信息一般来源于两个方面:

  • 训练数据中蕴含的信息;
  • 在模型的形成过程中,人们提供的先验信息。

当训练数据不足时,则需更多先验信息。先验信息可以作用在模型上,数据集上。

具体到图像分类任务上,训练数据不足会导致过拟合。 对应的处理方法:

  • 基于模型的方法,主要是采用降低过拟合风险的措施 包括简化模型(如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(如L1/L2正则化)、集成学习、Dropout超参数等。
  • 基于数据的方法,数据扩充(Data Augmentation)

相关内容

热门资讯

【MySQL】锁 锁 文章目录锁全局锁表级锁表锁元数据锁(MDL)意向锁AUTO-INC锁...
【内网安全】 隧道搭建穿透上线... 文章目录内网穿透-Ngrok-入门-上线1、服务端配置:2、客户端连接服务端ÿ...
GCN的几种模型复现笔记 引言 本篇笔记紧接上文,主要是上一篇看写了快2w字,再去接入代码感觉有点...
数据分页展示逻辑 import java.util.Arrays;import java.util.List;impo...
Redis为什么选择单线程?R... 目录专栏导读一、Redis版本迭代二、Redis4.0之前为什么一直采用单线程?三、R...
【已解决】ERROR: Cou... 正确指令: pip install pyyaml
关于测试,我发现了哪些新大陆 关于测试 平常也只是听说过一些关于测试的术语,但并没有使用过测试工具。偶然看到编程老师...
Lock 接口解读 前置知识点Synchronized synchronized 是 Java 中的关键字,...
Win7 专业版安装中文包、汉... 参考资料:http://www.metsky.com/archives/350.htm...
3 ROS1通讯编程提高(1) 3 ROS1通讯编程提高3.1 使用VS Code编译ROS13.1.1 VS Code的安装和配置...
大模型未来趋势 大模型是人工智能领域的重要发展趋势之一,未来有着广阔的应用前景和发展空间。以下是大模型未来的趋势和展...
python实战应用讲解-【n... 目录 如何在Python中计算残余的平方和 方法1:使用其Base公式 方法2:使用statsmod...
学习u-boot 需要了解的m... 一、常用函数 1. origin 函数 origin 函数的返回值就是变量来源。使用格式如下...
常用python爬虫库介绍与简... 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库&...
药品批准文号查询|药融云-中国... 药品批文是国家食品药品监督管理局(NMPA)对药品的审评和批准的证明文件...
【2023-03-22】SRS... 【2023-03-22】SRS推流搭配FFmpeg实现目标检测 说明: 外侧测试使用SRS播放器测...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
初级算法-哈希表 主要记录算法和数据结构学习笔记,新的一年更上一层楼! 初级算法-哈希表...
进程间通信【Linux】 1. 进程间通信 1.1 什么是进程间通信 在 Linux 系统中,进程间通信...
【Docker】P3 Dock... Docker数据卷、宿主机与挂载数据卷的概念及作用挂载宿主机配置数据卷挂载操作示例一个容器挂载多个目...