BI项目中ETL设计与思考
创始人
2024-05-30 13:52:25
0

ETL 是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业 中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL 是 BI 项目 重要的一个环节。通常情况下,在 BI 项目中 ETL 会花掉整个项目的 1/3 的时间,ETL 设计的好坏 直接关接到 BI 项目的成败。

ETL 的设计分三部分:数据抽取、数据的清洗转换、数据的加载。

数据的抽取是从各个不同的数据源抽取到 ODS(OperationalDataStore,操 作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同 的抽取方法,尽可能的提高 ETL 的运行效率。

ETL 三个部分中,花费时间最长的是“T”(Transfor m,清洗、转换)的部分,一般情况下这部分工作量是整个 ETL 的 2/3。数据的加载一般在数据清 洗完了之后直接写入 DW(DataWarehousing,数据仓库)中去。

ETL 的实现有多种方法,常用的有三种。

第一种是借助 ETL 工具实现(Datastage, Informatica,OWB).

第二种SQL方式实现

第三种ETL工具和SQL相结合。

前两种方法各有各的优缺点,借助工具可以快速的建立起 E TL 工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。SQL 的方法优 点是灵活,提高 ETL 运行效率,但是编码复杂,对技术要求比较高。第三种是综合了前面二种 的优点,会极大地提高 ETL 的开发速度和效率。

一、数据的抽取

部分需要在调研阶段做大量的工作,首先要搞清楚数据是从几个业务系统中来,各个业 务系统的数据库服务器运行什么 DBMS,是否存在手工数据,手工数据量有多大,是否存在非结 构化的数据等等,当收集完这些信息之后才可以进行数据抽取的设计。

1、对于与存放 DW 的数据库系统相同的数据源处理方法

这一类数据源在设计上比较容易。一般情况下,DBMS(SQLServer、Oracle)都会提供数据库 链接功能,在 DW 数据库服务器和原业务系统之间建立直接的链接关系就可以写 Select 语句直 接访问。

2、对于与 DW 数据库系统不同的数据源的处理方法

对于这一类数据源,一般情况下也可以通过 ODBC 的方式建立数据库链接——如 SQLServe r 和 Oracle 之间。如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导 出成.txt 或者是.xls 文件,然后再将这些源系统文件导入到 ODS 中。另外一种方法是通过程序接 口来完成

3、对于文件类型数据源(.txt,.xls)可以培训业务人员利用数据库工具将这些数据导入到指 定的数据库,然后从指定的数据库中抽取。或者还可以借助工具实现,如 SQLServer2005 的 SSI S 服务的平面数据源和平面目标等组件导入 ODS 中去。

4、增量更新的问题

对于数据量大的系统,必须考虑增量抽取。一般情况下,业务系统会记录业务发生的时间, 我们可以用来做增量的标志,每次抽取之前首先判断 ODS 中记录最大的时间,然后根据这个时间 去业务系统取大于这个时间所有的记录。利用业务系统的时间戳,一般情况下,业务系统没有或 者部分有时间戳。

二、数据的清洗转换

数据仓库分为 ODS、DW 两部分。通常的做法是从业务系统到 ODS 做清洗, 将脏数据和不完整数据过滤掉,在从 ODS 到 DW 的过程中转换,进行一些业务规则的计算和聚 合

1、数据清洗

数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否 过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的 数据、重复的数据三大类。

(1)不完整的数据:这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的 名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来, 按缺失的内容分别写入不同 Excel 文件向客户提交,要求在规定的时间内补全。补全后才写入数 据仓库。

(2)错误的数据:这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断 直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、 日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见 字符的问题,只能通过写 SQL 语句的方式找出来,然后要求客户在业务系统修正之后抽取。日 期格式不正确的或者是日期越界的这一类错误会导致 ETL 运行失败,这一类错误需要去业务系 统数据库用 SQL 的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。

(3)重复的数据:对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的 所有字段导出来,让客户确认并整理。

数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于 是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入 Excel 文件或者将过滤数据写 入数据表,在 ETL 开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正 错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉, 对于每个过滤规则认真进行验证,并要用户确认。

2.数据转换

数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算

(1)不一致数据转换:这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一, 比如同一个供应商在结算系统的编码是 XX0001,而在 CRM 中编码是 YY0001,这样在抽取过来 之后统一转换成一个编码。

(2)数据粒度的转换业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的不需要非常明细的数据。一般情况下,会将业务系统数据按照数据仓库粒度进行聚合

(3)商务规则的计算:不同的企业有不同的业务规则、不同的数据指标,这些指标有的时候 不是简单的加加减减就能完成,这个时候需要在 ETL 中将这些数据指标计算好了之后存储在数 据仓库中,以供分析使用。

三、ETL 日志、警告发送

1、ETL 日志

ETL 日志分为三类。

第一类是执行过程日志,这一部分日志是在 ETL 执行过程中每执行一步 的记录,记录每次运行每一步骤的起始时间,影响了多少行数据,流水账形式。

第二类是错误日志, 当某个模块出错的时候写错误日志,记录每次出错的时间、出错的模块以及出错的信息等。

第三 类日志是总体日志,只记录 ETL 开始时间、结束时间是否成功信息。如果使用 ETL 工具,ETL 工具会自动产生一些日志,这一类日志也可以作为 ETL 日志的一部分。记录日志的目的是随时 可以知道 ETL 运行情况,如果出错了,可以知道哪里出错。

2、警告发送

如果 ETL 出错了,不仅要形成 ETL 出错日志,而且要向系统管理员发送警告。

发送警告的 方式多种,一般常用的就是给系统管理员发送邮件,并附上出错的信息,方便管理员排查错误。 ETL 是 BI 项目的关键部分,也是一个长期的过程,只有不断的发现问题并解决问题,才能 使 ETL 运行效率更高,为 BI 项目后期开发提供准确的数据。

相关内容

热门资讯

安卓系统用的华为应用,探索智能... 你知道吗?在安卓系统里,华为的应用可是个宝库呢!它们不仅功能强大,而且使用起来超级方便。今天,就让我...
安卓变ios系统魅蓝 你知道吗?最近有个朋友突然告诉我,他要把自己的安卓手机换成iOS系统,而且还是魅蓝品牌的!这可真是让...
幻书启世录安卓系统,安卓世界中... 亲爱的读者们,你是否曾在某个夜晚,被一本神奇的书所吸引,仿佛它拥有着穿越时空的力量?今天,我要带你走...
电脑安装安卓系统进不去,安卓系... 电脑安装安卓系统后竟然进不去,这可真是让人头疼的问题啊!你是不是也遇到了这种情况,心里直呼“怎么办怎...
用键盘切换控制安卓系统,畅享安... 你有没有想过,用键盘来控制你的安卓手机?是的,你没听错,就是那个我们每天敲敲打打的小玩意儿——键盘。...
小米安卓镜像系统在哪,小米安卓... 你有没有想过,你的小米手机里有一个隐藏的宝藏——安卓镜像系统?没错,就是那个可以让你的手机瞬间变身成...
安卓手机下载排班系统,高效排班... 你有没有想过,每天忙碌的工作中,有没有什么好帮手能帮你轻松管理时间呢?今天,就让我来给你介绍一个超级...
桌面组件如何弄安卓系统,桌面组... 亲爱的桌面爱好者们,你是否曾梦想过将安卓系统搬到你的电脑桌面上?想象那些流畅的动画、丰富的应用,还有...
安卓13系统介绍视频,新功能与... 亲爱的读者们,你是否对安卓13系统充满好奇?想要一探究竟,却又苦于没有足够的时间去研究?别担心,今天...
车机安卓7.1系统,功能升级与... 你有没有发现,现在的车机系统越来越智能了?尤其是那些搭载了安卓7.1系统的车机,简直就像是个贴心的智...
安卓系统下如何读pdf,And... 你有没有遇到过这种情况:手机里存了一大堆PDF文件,可是怎么也找不到一个能顺畅阅读的工具?别急,今天...
安卓系统全国通用的吗,畅享智能... 你有没有想过,为什么你的手机里装的是安卓系统呢?安卓系统,这个名字听起来是不是有点神秘?今天,就让我...
假苹果手机8安卓系统,颠覆传统... 你有没有想过,如果苹果手机突然变成了安卓系统,会是怎样的景象呢?想象那熟悉的苹果外观,却运行着安卓的...
安卓12.0系统vivo有吗,... 你有没有听说最近安卓系统又升级啦?没错,就是那个让手机焕然一新的安卓12.0系统!那么,咱们国内的手...
核心芯片和安卓系统,探索核心芯... 你知道吗?在科技的世界里,有一对“黄金搭档”正悄悄改变着我们的生活。他们就是——核心芯片和安卓系统。...
如何调安卓系统屏幕颜色,安卓系... 亲爱的手机控们,你是否曾觉得安卓系统的屏幕颜色不够个性,或者是因为长时间盯着屏幕而感到眼睛疲劳?别担...
旧台式电脑安装安卓系统,轻松安... 你那台旧台式电脑是不是已经服役多年,性能逐渐力不从心,却又不忍心让它退役呢?别急,今天就来教你怎么给...
美国要求关闭安卓系统,科技霸权... 美国要求关闭安卓系统:一场技术革新还是政治博弈?在数字化时代,智能手机已经成为我们生活中不可或缺的一...
安卓系统日记本 你有没有发现,手机里的安卓系统日记本,简直就是记录生活点滴的宝藏库呢?想象每天忙碌的生活中,有没有那...
安卓手机广告最少的系统,探索安... 你有没有发现,用安卓手机的时候,广告总是无处不在,让人烦得要命?不过别急,今天我要给你揭秘一个秘密—...