数值处理--特征工程
admin
2024-03-23 14:07:55
0

1.特征工程

  • 特征归一化 问:为什么需要对数值类型的特征做归一化? 分析解答: 为了消除数据特征之间的量纲影响,对特征进行归一化处理,使得不同指标之间具有可比性。 常用方法: (1)线性函数归一化(Min-Max Scaling)对原始数据进行线性变换,使结果映射到【0,1】范围,实现对原始数据的等比缩放。 (2)零均值归一化(Z-Score Normalization)将原始数据映射到均值为0、标准差为1的分布上。

举例梯度下降实例说明归一化的重要性,若两个特征的取值范围不一样,则在学习速率相同的情况下,范围小的特征更新速度会大于取值范围大的特征,需要较多的迭代才能找到最优解。若将两个特征归一化到相同的数值区间,两特征的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。

实际运用中,通过梯度下降法求解的模型通常需要归一化,包括线性回归、逻辑回归、支持向量机、神经网络等。但对决策树不适用。 2.类别型特征

  • 类别型特征指在有限选项内取值的特征。
  • 类别型特征原始输入通常是字符串形式
  • 决策树可以直接处理字符串形式的输入
  • 逻辑回归、支持向量机等模型,类别型特征必须经过处理转换成数值型特征才能正确工作。

问题:在对数据进行预处理时,应该怎样处理类别型特征? 知识点:

  • 序号编码:用于处理类别间具有大小关系的数据。高3,中2,低1
  • 独热编码:用于处理类别间不具有大小关系的特征。 对于类别取值较多的情况下使用独热编码需要注意: (1)使用稀疏向量来节省空间。 (2)配合特征选择来降低维度。高维度特征会带来的问题:一:在K近邻算法中,高维空间下两点之间的距离很难得到有效衡量;二逻辑回归中,参数的数量会随着维度的增高而增加,容易引起过拟合;三通常只有部分维度对分类、预测有帮助。
  • 二进制编码:先给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。

3 高维组合特征的处理 问题:什么是组合特征?如何处理高维组合特征?

为了提高复杂关系的拟合能力,在特征工程中疆场会把一阶离散特征两两组合,构成高阶组合特征。 将组合的特征分别用k维的低维向量表示。

4 组合特征 问题:怎样有效找到组合特征? 基于决策树的特征组合寻找方法。 给定原始输入该如何有效地构造决策树?可采用梯度提升树,该方法的思想是每次都在之前构建的决策树的残差上构建下一颗决策树。

5 文本表示模型 问题:有哪些文本表示模型?它们各有什么优缺点?

  • 词袋模型和N-gram模型 最基础的文本表示模型是词袋模型。就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。用TF-IDF计算每个词的权重,如果一个单词在很多的文章里出现,那么它可能是一个比较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此对权重做一定惩罚。 将连续出现的n个词组成的词组也作为一个单独的特征放到向量表示中去,构成N-gram。
  • 主体模型 用于从文本库中发现有代表性的主题,并且能够计算出每篇文章的主题分布。
  • 词嵌入与深度学习模型 词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间上的一个稠密向量。

深度学习模型提供了一种自动地进行特征工程的方式,模型中的每个隐层都可以认为对应着不同抽象层次的特征。 与全连接的网络结构相比,卷积神经网络和循环神经网络一方面很好地抓住了文本的特性,另一方面也减少了网络中待学习的参数,提高了训练速度,并且减低了过拟合的风险。

6 Word2Vec Word2Vec是目前最常用的词嵌入模型之一,实际是一种浅层的神经网络模型,有两种网络结构:CBOW,Skip-gram

知识点:Word2Vec,因狄利克雷模型LDA,CBOW,Skip-gram

问题:Word2Vec是如何工作的?它和LDA有什么区别和联系? CBOW的目标是根据上下文出现的词语来预测当前词的生成概率; Skip-gram是根据当前词来预测上下文中各词的生成概率。

区别和联系:

  • LDA是利用文档中单词的共现关系来对单词按主题聚类,也可以理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。
  • Word2Vec是对“上下文-单词”矩阵进行学习,其中上下文由周围的几个单词组成,由此得到的词向量表示更多地融入了上下文共现的特征。也就是说,如果两个单词所对应的Word2Vec向量相似度较高,那么他们很可能经常在同样的上下文中出现。

主题模型和词嵌入两方法的差异: 主题模型和词嵌入两类方法最大的不同在于模型本身

  • 主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式
  • 词嵌入模型一般表达为神经网络的形式

7 图像数据不足时的处理方法

知识点:迁移学习、生成对抗网络、图像处理、上采样技术、数据扩充 问题:在图像分类任务中,训练数据 不足会带来什么问题?如何缓解数据量不足带来的问题? 分析: 一个模型所能提供的信息一般来源于两个方面:

  • 训练数据中蕴含的信息;
  • 在模型的形成过程中,人们提供的先验信息。

当训练数据不足时,则需更多先验信息。先验信息可以作用在模型上,数据集上。

具体到图像分类任务上,训练数据不足会导致过拟合。 对应的处理方法:

  • 基于模型的方法,主要是采用降低过拟合风险的措施 包括简化模型(如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(如L1/L2正则化)、集成学习、Dropout超参数等。
  • 基于数据的方法,数据扩充(Data Augmentation)

相关内容

热门资讯

安卓怎么传到苹果系统,从安卓到... 你是不是也有过这样的烦恼:手机里存了好多好用的安卓应用,可是一换到苹果系统,就发现这些宝贝们都不见了...
安卓改系统字体app,安卓系统... 你有没有想过,手机上的字体也能变得个性十足?没错,就是那个安卓改系统字体app,它可是让手机界面焕然...
安卓系统重启密码错误,破解与预... 手机突然重启了,屏幕上竟然出现了密码输入的界面!这可怎么办?别急,让我来帮你一步步解决这个安卓系统重...
安卓系统怎么删除相片,照片删除... 手机里的相片越来越多,是不是感觉内存都要不够用了?别急,今天就来教你怎么在安卓系统里轻松删除那些不再...
什么安卓机系统最好,安卓系统最... 你有没有想过,手机里那个默默无闻的系统,其实才是决定你手机体验好坏的关键呢?没错,说的就是安卓机系统...
小米手环8安卓系统,智能生活新... 你有没有注意到,最近小米手环8安卓系统成了大家热议的话题呢?这款智能手环自从上市以来,就凭借其强大的...
虹膜系统怎么换为安卓,技术革新... 你有没有想过,你的虹膜系统怎么换为安卓呢?这可是个挺酷的话题,不是吗?想象你的手机上装了个高科技的虹...
安卓刷苹果mac系统,探索跨平... 你有没有想过,你的安卓手机竟然能变身成为苹果Mac系统的超级战士?没错,这就是今天我要跟你分享的神奇...
安卓系统不模仿苹果,不模仿苹果... 你知道吗?在科技圈里,有一场关于操作系统的大戏正在上演。没错,就是安卓系统和苹果iOS系统之间的较量...
安卓系统计步开启,开启健康生活... 你有没有发现,最近你的手机里多了一个小助手——计步器?没错,就是那个默默记录你每一步的小家伙。今天,...
怎么备份安卓系统 recove... 你有没有想过,如果你的安卓手机突然间像顽皮的小猫一样,把你的照片、视频和重要文件都给“藏”了起来?别...
安卓系统同步功能停用,安卓系统... 最近发现了一个让人有点小郁闷的消息——安卓系统的同步功能竟然被停用了!这可真是让人有点措手不及呢。想...
安卓系统的平板重装系统,轻松恢... 你那安卓平板是不是突然间卡得跟蜗牛似的,系统反应慢得跟乌龟赛跑似的?别急,今天就来给你支个招,教你怎...
安卓操作系统语言,引领智能时代... 你知道吗?在手机世界里,有一个超级厉害的操作系统,它就是安卓!这个操作系统可是全球最流行的,几乎每个...
安卓系统声音录音软件,声音记录... 你有没有想过,在安卓手机上,那些美妙的旋律、有趣的对话或者重要的会议内容,如何变成你随时可以回顾的宝...
coloros系统和安卓9,创... 你知道吗?最近手机圈里可是热闹非凡呢!一款名为ColorOS的系统,还有那个大家熟悉的安卓9,它们俩...
安卓个推系统搭建,基于个推系统... 你有没有想过,自己的手机里那些推送消息是怎么悄无声息地出现在你眼前的?没错,就是安卓个推系统在默默为...
设置系统时间app安卓,安卓时... 你有没有想过,手机里那个默默无闻的系统时间,竟然能通过一个小巧的App变得如此有趣和个性化?没错,今...
安卓系统输出开关量,安卓系统开... 你有没有想过,你的安卓手机里竟然隐藏着这么一个神奇的开关量输出功能?没错,就是那个你可能从未留意过的...
安卓系统音乐软件推荐,五大热门... 你有没有发现,手机里音乐软件那么多,挑一款适合自己的真心不容易啊!安卓系统上的音乐软件更是五花八门,...