数值处理--特征工程
admin
2024-03-23 14:07:55
0

1.特征工程

  • 特征归一化 问:为什么需要对数值类型的特征做归一化? 分析解答: 为了消除数据特征之间的量纲影响,对特征进行归一化处理,使得不同指标之间具有可比性。 常用方法: (1)线性函数归一化(Min-Max Scaling)对原始数据进行线性变换,使结果映射到【0,1】范围,实现对原始数据的等比缩放。 (2)零均值归一化(Z-Score Normalization)将原始数据映射到均值为0、标准差为1的分布上。

举例梯度下降实例说明归一化的重要性,若两个特征的取值范围不一样,则在学习速率相同的情况下,范围小的特征更新速度会大于取值范围大的特征,需要较多的迭代才能找到最优解。若将两个特征归一化到相同的数值区间,两特征的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。

实际运用中,通过梯度下降法求解的模型通常需要归一化,包括线性回归、逻辑回归、支持向量机、神经网络等。但对决策树不适用。 2.类别型特征

  • 类别型特征指在有限选项内取值的特征。
  • 类别型特征原始输入通常是字符串形式
  • 决策树可以直接处理字符串形式的输入
  • 逻辑回归、支持向量机等模型,类别型特征必须经过处理转换成数值型特征才能正确工作。

问题:在对数据进行预处理时,应该怎样处理类别型特征? 知识点:

  • 序号编码:用于处理类别间具有大小关系的数据。高3,中2,低1
  • 独热编码:用于处理类别间不具有大小关系的特征。 对于类别取值较多的情况下使用独热编码需要注意: (1)使用稀疏向量来节省空间。 (2)配合特征选择来降低维度。高维度特征会带来的问题:一:在K近邻算法中,高维空间下两点之间的距离很难得到有效衡量;二逻辑回归中,参数的数量会随着维度的增高而增加,容易引起过拟合;三通常只有部分维度对分类、预测有帮助。
  • 二进制编码:先给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。

3 高维组合特征的处理 问题:什么是组合特征?如何处理高维组合特征?

为了提高复杂关系的拟合能力,在特征工程中疆场会把一阶离散特征两两组合,构成高阶组合特征。 将组合的特征分别用k维的低维向量表示。

4 组合特征 问题:怎样有效找到组合特征? 基于决策树的特征组合寻找方法。 给定原始输入该如何有效地构造决策树?可采用梯度提升树,该方法的思想是每次都在之前构建的决策树的残差上构建下一颗决策树。

5 文本表示模型 问题:有哪些文本表示模型?它们各有什么优缺点?

  • 词袋模型和N-gram模型 最基础的文本表示模型是词袋模型。就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。用TF-IDF计算每个词的权重,如果一个单词在很多的文章里出现,那么它可能是一个比较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此对权重做一定惩罚。 将连续出现的n个词组成的词组也作为一个单独的特征放到向量表示中去,构成N-gram。
  • 主体模型 用于从文本库中发现有代表性的主题,并且能够计算出每篇文章的主题分布。
  • 词嵌入与深度学习模型 词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间上的一个稠密向量。

深度学习模型提供了一种自动地进行特征工程的方式,模型中的每个隐层都可以认为对应着不同抽象层次的特征。 与全连接的网络结构相比,卷积神经网络和循环神经网络一方面很好地抓住了文本的特性,另一方面也减少了网络中待学习的参数,提高了训练速度,并且减低了过拟合的风险。

6 Word2Vec Word2Vec是目前最常用的词嵌入模型之一,实际是一种浅层的神经网络模型,有两种网络结构:CBOW,Skip-gram

知识点:Word2Vec,因狄利克雷模型LDA,CBOW,Skip-gram

问题:Word2Vec是如何工作的?它和LDA有什么区别和联系? CBOW的目标是根据上下文出现的词语来预测当前词的生成概率; Skip-gram是根据当前词来预测上下文中各词的生成概率。

区别和联系:

  • LDA是利用文档中单词的共现关系来对单词按主题聚类,也可以理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。
  • Word2Vec是对“上下文-单词”矩阵进行学习,其中上下文由周围的几个单词组成,由此得到的词向量表示更多地融入了上下文共现的特征。也就是说,如果两个单词所对应的Word2Vec向量相似度较高,那么他们很可能经常在同样的上下文中出现。

主题模型和词嵌入两方法的差异: 主题模型和词嵌入两类方法最大的不同在于模型本身

  • 主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式
  • 词嵌入模型一般表达为神经网络的形式

7 图像数据不足时的处理方法

知识点:迁移学习、生成对抗网络、图像处理、上采样技术、数据扩充 问题:在图像分类任务中,训练数据 不足会带来什么问题?如何缓解数据量不足带来的问题? 分析: 一个模型所能提供的信息一般来源于两个方面:

  • 训练数据中蕴含的信息;
  • 在模型的形成过程中,人们提供的先验信息。

当训练数据不足时,则需更多先验信息。先验信息可以作用在模型上,数据集上。

具体到图像分类任务上,训练数据不足会导致过拟合。 对应的处理方法:

  • 基于模型的方法,主要是采用降低过拟合风险的措施 包括简化模型(如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(如L1/L2正则化)、集成学习、Dropout超参数等。
  • 基于数据的方法,数据扩充(Data Augmentation)

相关内容

热门资讯

安卓系统音乐软件推荐,五大热门... 你有没有发现,手机里音乐软件那么多,挑一款适合自己的真心不容易啊!安卓系统上的音乐软件更是五花八门,...
安卓系统刷三星系统,轻松刷入最... 你有没有想过,你的安卓手机其实可以变身成三星的旗舰机呢?没错,就是那种屏幕大、性能强、系统流畅的旗舰...
塞班系统可以转为安卓,跨越时代... 你知道吗?现在科技的发展真是让人眼花缭乱,连我们曾经熟悉的塞班系统也能华丽转身,变成安卓系统呢!是不...
安卓系统如何录像剪辑,录像剪辑... 亲爱的手机控们,你是否有过这样的经历:在某个瞬间,你捕捉到了一段令人难忘的画面,却因为没来得及记录而...
安卓系统强行提高配置,配置提升... 最近你的安卓手机是不是感觉有点儿“发烧”了?没错,就是那种配置突然“升级”的感觉。你是不是也觉得,手...
安卓系统能做设计吗,探索安卓系... 你有没有想过,安卓系统竟然也能做设计?是的,你没听错,这个我们日常使用的手机操作系统,竟然也能成为设...
安卓系统几年后使用,探索多年使... 你有没有想过,那些陪伴我们多年的安卓手机,它们现在过得怎么样了呢?安卓系统,这个曾经让我们爱恨交加的...
平板安卓苹果双系统,安卓与苹果... 你有没有想过,拥有一台既能运行安卓系统,又能使用苹果系统的平板电脑,那该是多么酷炫的事情啊!想象一边...
嘉和病历系统安卓,便捷医疗信息... 你有没有听说过嘉和病历系统安卓版?这可是医疗行业的一大神器呢!想象医生们拿着手机就能轻松管理病历,患...
安卓10更改系统号,揭秘系统编... 你知道吗?最近安卓系统又来了一次大更新,安卓10正式上线了!这次更新可是带来了不少新功能,其中最引人...
小米墨水屏 安卓系统,融合科技... 你知道吗?在科技日新月异的今天,电子阅读器市场也迎来了新的活力。而小米,这个我们熟悉的品牌,最近推出...
系统软件最少的安卓系统,基于最... 你有没有想过,手机系统就像是我们生活的操作系统,有时候太复杂了,让人感觉头都大了。今天,我要给你介绍...
安卓系统关闭应用推荐,安卓系统... 你有没有发现,手机里的安卓系统最近有点儿“小情绪”,总是给你推荐一些你根本不感兴趣的应用?别急,今天...
车载安卓系统如何用,智能驾驶体... 你有没有想过,你的车载安卓系统其实是个隐藏的宝库呢?没错,就是那个你每天开车时几乎不离手的那个屏幕,...
安卓系统更新如何取消,```p... 你有没有遇到过这种情况:安卓手机的系统更新推送得让人有点头疼,有时候更新后的系统还各种不适应。别急,...
安卓系统源码修改练习,从零开始... 亲爱的技术爱好者,你是否曾梦想过深入安卓系统的内核,亲手修改源码,让手机变得更加个性化?那就让我们一...
安卓考勤系统论文,基于安卓平台... 你有没有想过,每天打卡上班,是不是也能变得有趣起来呢?没错,就是那个我们每天都要面对的安卓考勤系统。...
安卓系统哪家流畅度,安卓系统流... 手机里的安卓系统,就像是每个人的小世界,各有各的风采。但说到流畅度,这可是大家最关心的问题了。今天,...
安卓开不了定位系统,安卓设备定... 最近是不是发现你的安卓手机定位系统突然罢工了?别急,别慌,今天就来给你详细解析一下这个问题,让你轻松...
安卓系统怎么设置airpod,... 你有没有发现,自从AirPods问世以来,它就成为了科技界的宠儿?这款无线耳机不仅音质出众,而且连接...