数值处理--特征工程
admin
2024-03-23 14:07:55
0

1.特征工程

  • 特征归一化 问:为什么需要对数值类型的特征做归一化? 分析解答: 为了消除数据特征之间的量纲影响,对特征进行归一化处理,使得不同指标之间具有可比性。 常用方法: (1)线性函数归一化(Min-Max Scaling)对原始数据进行线性变换,使结果映射到【0,1】范围,实现对原始数据的等比缩放。 (2)零均值归一化(Z-Score Normalization)将原始数据映射到均值为0、标准差为1的分布上。

举例梯度下降实例说明归一化的重要性,若两个特征的取值范围不一样,则在学习速率相同的情况下,范围小的特征更新速度会大于取值范围大的特征,需要较多的迭代才能找到最优解。若将两个特征归一化到相同的数值区间,两特征的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。

实际运用中,通过梯度下降法求解的模型通常需要归一化,包括线性回归、逻辑回归、支持向量机、神经网络等。但对决策树不适用。 2.类别型特征

  • 类别型特征指在有限选项内取值的特征。
  • 类别型特征原始输入通常是字符串形式
  • 决策树可以直接处理字符串形式的输入
  • 逻辑回归、支持向量机等模型,类别型特征必须经过处理转换成数值型特征才能正确工作。

问题:在对数据进行预处理时,应该怎样处理类别型特征? 知识点:

  • 序号编码:用于处理类别间具有大小关系的数据。高3,中2,低1
  • 独热编码:用于处理类别间不具有大小关系的特征。 对于类别取值较多的情况下使用独热编码需要注意: (1)使用稀疏向量来节省空间。 (2)配合特征选择来降低维度。高维度特征会带来的问题:一:在K近邻算法中,高维空间下两点之间的距离很难得到有效衡量;二逻辑回归中,参数的数量会随着维度的增高而增加,容易引起过拟合;三通常只有部分维度对分类、预测有帮助。
  • 二进制编码:先给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。

3 高维组合特征的处理 问题:什么是组合特征?如何处理高维组合特征?

为了提高复杂关系的拟合能力,在特征工程中疆场会把一阶离散特征两两组合,构成高阶组合特征。 将组合的特征分别用k维的低维向量表示。

4 组合特征 问题:怎样有效找到组合特征? 基于决策树的特征组合寻找方法。 给定原始输入该如何有效地构造决策树?可采用梯度提升树,该方法的思想是每次都在之前构建的决策树的残差上构建下一颗决策树。

5 文本表示模型 问题:有哪些文本表示模型?它们各有什么优缺点?

  • 词袋模型和N-gram模型 最基础的文本表示模型是词袋模型。就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。用TF-IDF计算每个词的权重,如果一个单词在很多的文章里出现,那么它可能是一个比较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此对权重做一定惩罚。 将连续出现的n个词组成的词组也作为一个单独的特征放到向量表示中去,构成N-gram。
  • 主体模型 用于从文本库中发现有代表性的主题,并且能够计算出每篇文章的主题分布。
  • 词嵌入与深度学习模型 词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间上的一个稠密向量。

深度学习模型提供了一种自动地进行特征工程的方式,模型中的每个隐层都可以认为对应着不同抽象层次的特征。 与全连接的网络结构相比,卷积神经网络和循环神经网络一方面很好地抓住了文本的特性,另一方面也减少了网络中待学习的参数,提高了训练速度,并且减低了过拟合的风险。

6 Word2Vec Word2Vec是目前最常用的词嵌入模型之一,实际是一种浅层的神经网络模型,有两种网络结构:CBOW,Skip-gram

知识点:Word2Vec,因狄利克雷模型LDA,CBOW,Skip-gram

问题:Word2Vec是如何工作的?它和LDA有什么区别和联系? CBOW的目标是根据上下文出现的词语来预测当前词的生成概率; Skip-gram是根据当前词来预测上下文中各词的生成概率。

区别和联系:

  • LDA是利用文档中单词的共现关系来对单词按主题聚类,也可以理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。
  • Word2Vec是对“上下文-单词”矩阵进行学习,其中上下文由周围的几个单词组成,由此得到的词向量表示更多地融入了上下文共现的特征。也就是说,如果两个单词所对应的Word2Vec向量相似度较高,那么他们很可能经常在同样的上下文中出现。

主题模型和词嵌入两方法的差异: 主题模型和词嵌入两类方法最大的不同在于模型本身

  • 主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式
  • 词嵌入模型一般表达为神经网络的形式

7 图像数据不足时的处理方法

知识点:迁移学习、生成对抗网络、图像处理、上采样技术、数据扩充 问题:在图像分类任务中,训练数据 不足会带来什么问题?如何缓解数据量不足带来的问题? 分析: 一个模型所能提供的信息一般来源于两个方面:

  • 训练数据中蕴含的信息;
  • 在模型的形成过程中,人们提供的先验信息。

当训练数据不足时,则需更多先验信息。先验信息可以作用在模型上,数据集上。

具体到图像分类任务上,训练数据不足会导致过拟合。 对应的处理方法:

  • 基于模型的方法,主要是采用降低过拟合风险的措施 包括简化模型(如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(如L1/L2正则化)、集成学习、Dropout超参数等。
  • 基于数据的方法,数据扩充(Data Augmentation)

相关内容

热门资讯

怎么解除订阅安卓系统,安卓系统... 你是不是也和我一样,手机里订阅了好多服务,结果现在想解除订阅,却一头雾水?别急,今天就来手把手教你如...
安卓系统停用怎么开启,轻松恢复... 亲爱的手机控们,你是否曾经遇到过安卓系统突然停用的情况,让你手忙脚乱,不知所措?别担心,今天就来教你...
安卓系统电池健康度,电池健康度... 你有没有发现,你的安卓手机最近是不是有点儿不给力了?电池续航能力大不如前,充电速度也慢了不少?别急,...
安卓系统按键怎么截图,安卓系统... 你是不是也和我一样,有时候想截个图分享给朋友,却发现安卓手机的截图功能有点神秘呢?别急,今天就来手把...
购票系统安卓源代码,架构设计与... 你有没有想过,那些我们每天离不开的购票系统,它们背后的秘密是什么呢?今天,就让我带你一探究竟,揭开购...
安卓手机系统后台测试,深度解析... 你有没有发现,你的安卓手机后台总是悄悄地忙碌着?别小看了这些后台程序,它们可是手机系统稳定运行的关键...
安卓系统重启的图标,解锁设备新... 手机突然重启,是不是心里有点慌?别急,今天就来和你聊聊安卓系统重启的图标,让你一眼就能认出它,再也不...
车载智慧屏安卓系统,智能出行新... 你有没有发现,现在的车载智慧屏越来越智能了?尤其是那些搭载了安卓系统的,简直就像是个移动的小电脑,不...
安卓系统连上网权限,解锁设备无... 你有没有发现,你的安卓手机里有些应用总是偷偷连上网?别小看这个小小的网络权限,它可是能影响你隐私、消...
安卓谷歌操作系统,探索安卓谷歌... 你知道吗?在智能手机的世界里,有一个操作系统可是无人不知、无人不晓,那就是安卓谷歌操作系统。它就像一...
安卓系统手写%怎样调出,具体实... 你有没有遇到过这种情况:在使用安卓手机的时候,突然想用手写输入法来记录一些灵感或者重要信息,可是怎么...
安卓手机重置 系统设置,轻松恢... 手机用久了是不是感觉卡顿得厉害?别急,今天就来教你怎么给安卓手机来个大变身——重置系统设置!想象你的...
win如何安装安卓系统,Win... 哇,你有没有想过,让你的Win系统也能玩转安卓应用?没错,就是那种在手机上轻松自如的安卓系统,现在也...
苹果qq和安卓系统,跨平台体验... 你有没有发现,现在手机市场上,苹果和安卓的较量可是越来越激烈了呢!咱们就来聊聊这个话题,看看苹果QQ...
显示最好的安卓系统,探索最新旗... 你有没有想过,为什么安卓系统那么受欢迎呢?它就像一个魔法盒子,里面装满了各种神奇的魔法。今天,就让我...
安卓app怎么降级系统,系统版... 你有没有发现,有时候安卓手机的系统更新后,新功能虽然炫酷,但老系统用起来更顺手呢?别急,今天就来教你...
雷军脱离安卓系统,引领科技变革... 你知道吗?最近科技圈可是炸开了锅,因为我们的雷军大大竟然宣布要脱离安卓系统,这可真是让人大跌眼镜啊!...
安卓系统自动开网络,安卓系统自... 你有没有发现,手机里的安卓系统有时候会自动开启网络连接,这可真是让人又爱又恨啊!有时候,你正专心致志...
安卓系统怎样控制后台,因为服务... 手机里的安卓系统是不是感觉越来越卡了?后台程序太多,不仅耗电还影响性能。别急,今天就来教你怎么巧妙地...
安卓系统打游戏推荐,一触即达! 你有没有发现,现在手机游戏越来越好玩了?不管是休闲小游戏还是大型MMORPG,都能在手机上畅玩。但是...