Hadoop 入门基础 及HiveQL
创始人
2024-05-08 23:34:12
0

一、hadoop 解决了什么问题?即hadoop 产生背景

一个能够轻松方便、经济实惠地存储和分析大量数据的非常流行的开源项目。

二、hadoop 是如何低成本地解决大数据的存储和分析的?即hadoop 原理,hadoop 的组成部分

Hadoop的创始人、Cloudera首席架构师Doug Cutting。结合 Google的三篇论文,《Google File System》、《Google Bigtable》和《Google MapReduce》(其实描述的就是Google的三种技术,GFS分布式文件系统,Bigtable分布式数据存储系统,MapReduce编程模型,都是基于分布式并行运行的,都是部署在大量普通机器组成的集群之上,其实相互之间都有相似之处,也能协调在一起运行和工作。这也是在2003到2006年之间Google陆续发表的论文,三篇文章的重要目的就是解决分布式并行计算的问题。为大数据技术的发展和应用提供了可能。)用java语言开发了hadoop。hadoop 一般指代 HDFS+MapReduce+YRN 及其生态,Hbase 对应《Google Bigtable》。
在这里插入图片描述

三、如何使用hadoop解决问题?即hadoop的使用

详细见文 hive 和 hbase 的应用场景、联系、区别
1.Hive:通俗的说是一个数据仓库,严格来说,不是数据库,仓库中的数据是被HDFS管理的数据文件,它支持类似sql语句的功能,你可以通过该语句完成分布式环境下的计算功能,Hive会把语句转换成MapReduce,然后交给Hadoop执行。这里的计算,仅限于查找和分析,而不是更新、增加和删除。它的优势是对历史数据进行处理,用时下流行的说法是离线计算,因为它的底层是MapReduce,MapReduce在实时计算上性能很差。它的做法是把数据文件加载进来作为一个Hive表(或者外部表),让你觉得你的sql操作的是传统的表。

Hive中的表为纯逻辑表,仅仅对表的元数据进行定义。Hive没有物理存储的功能,它完全依赖HDFS和MapReduce。

Hive全面支持SQL,一般可以用来进行基于历史数据的挖掘、分析。

Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统

2.HBase:Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。HBase以Google BigTable为蓝本,以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。

通俗的说,HBase的作用类似于数据库,传统数据库管理的是集中的本地数据文件,而HBase基于HDFS实现对分布式数据文件的管理,比如增删改查。也就是说,HBase只是利用Hadoop的HDFS帮助其管理数据的持久化文件(HFile),它跟MapReduce没任何关系。HBase的优势在于实时计算,所有实时数据都直接存入HBase中,客户端通过API直接访问HBase,实现实时计算。由于它使用的是nosql,或者说是列式结构,从而提高了查找性能,使其能运用于大数据场景,这是它跟MapReduce的区别。

HBase表则是物理表,适合存放非结构化的数据。

HBase为列模式,这样使得对海量数据的随机访问变得可行。

HBase是准实时系统,可以实现数据的实时查询。

基于HBase的查询,支持和row-level的更新。

HBase不适用于有join,多级索引,表关系复杂的应用场景。

HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。

3.两者使用场景的区别:

HBase的应用场景通常是采集网页数据的存储,因为它是key-value型数据库,从而可以到各种key-value应用场景,例如存储日志信息,对于内容信息不需要完全结构化出来的类CMS应用等。注意hbase针对的仍然是OLTP应用为主。

hive主要针对的是OLAP应用,其底层是hdfs分布式文件系统,重点是基于一个统一的查询分析层,支撑OLAP应用中的各种关联,分组,聚合类SQL语句。hive一般只用于查询分析统计,而不能是常见的CUD操作,要知道HIVE是需要从已有的数据库或日志进行同步最终入到hdfs文件系统中,当前要做到增量实时同步都相当困难。

最后补充一下:Hive可以直接操作HDFS中的文件作为它的表的数据,也可以使用HBase数据库作为它的表

四、hive架构 hiveQL 执行过程及语法

1.hive架构
在这里插入图片描述

2.hiveql执行过程

在这里插入图片描述

3.hiveql语法
官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual
hiveql 和 mysql oracle sql 基本类似。可以搜索hiveql基础操作

4.如何写入数据到hive中?
1.从文件导入
2.通过查询语句插入

5.为什么用hive 不用oracle 或mysql
hive OLAP 大量数据的离线分析,响应速度慢。
oracle 或mysql OLTP 小量数据的在线插入查询,响应速度快。

相关内容

热门资讯

美国不提安卓系统华为,迈向自主... 华为与美国:一场关于技术、市场与政策的较量在当今这个数字化的世界里,智能手机已经成为我们生活中不可或...
安卓系统怎么打开ppt,选择文... 你有没有遇到过这种情况:手里拿着安卓手机,突然需要打开一个PPT文件,却怎么也找不到方法?别急,今天...
谷歌退回到安卓系统,探索创新未... 你知道吗?最近科技圈可是炸开了锅,谷歌竟然宣布要退回到安卓系统!这可不是一个简单的决定,背后肯定有着...
安卓系统待机耗电多少,深度解析... 你有没有发现,手机电量总是不经用?尤其是安卓系统,有时候明明没怎么用,电量就“嗖”的一下子就下去了。...
小米主题安卓原生系统,安卓原生... 亲爱的手机控们,你是否曾为手机界面单调乏味而烦恼?想要给手机换换“衣服”,让它焕然一新?那就得聊聊小...
voyov1安卓系统,探索创新... 你有没有发现,最近你的手机是不是变得越来越流畅了?没错,我要说的就是那个让手机焕发青春的Vivo V...
电脑刷安卓tv系统,轻松打造智... 你有没有想过,家里的安卓电视突然变得卡顿,反应迟钝,是不是时候给它来个“大保健”了?没错,今天就要来...
安卓系统即将要收费,未来手机应... 你知道吗?最近有个大消息在科技圈里炸开了锅,那就是安卓系统可能要开始收费了!这可不是开玩笑的,这可是...
雷凌车载安卓系统,智能出行新体... 你有没有发现,现在的汽车越来越智能了?这不,我最近就体验了一把雷凌车载安卓系统的魅力。它就像一个聪明...
怎样拍照好看安卓系统,轻松拍出... 拍照好看,安卓系统也能轻松搞定!在这个看脸的时代,拍照已经成为每个人生活中不可或缺的一部分。无论是记...
安卓车机系统音频,安卓车机系统... 你有没有发现,现在越来越多的汽车都开始搭载智能车机系统了?这不,咱们就来聊聊安卓车机系统在音频方面的...
老苹果手机安卓系统,兼容与创新... 你手里那台老苹果手机,是不是已经陪你走过了不少风风雨雨?现在,它竟然还能装上安卓系统?这可不是天方夜...
安卓系统7.dns,优化网络连... 你有没有发现,你的安卓手机最近是不是有点儿“慢吞吞”的?别急,别急,让我来给你揭秘这可能与你的安卓系...
安卓手机系统怎么加速,安卓手机... 你有没有发现,你的安卓手机最近变得有点“慢吞吞”的?别急,别急,今天就来给你支几招,让你的安卓手机瞬...
小米note安卓7系统,探索性... 你有没有发现,手机更新换代的速度简直就像坐上了火箭呢?这不,小米Note这款手机,自从升级到了安卓7...
安卓和鸿蒙系统游戏,两大系统游... 你有没有发现,最近手机游戏界可是热闹非凡呢!安卓和鸿蒙系统两大巨头在游戏领域展开了一场激烈的较量。今...
安卓手机没有系统更,揭秘潜在风... 你有没有发现,现在安卓手机的品牌和型号真是五花八门,让人挑花了眼。不过,你知道吗?尽管市面上安卓手机...
充值宝带安卓系统,安卓系统下的... 你有没有发现,最近手机上的一款充值宝APP,在安卓系统上可是火得一塌糊涂呢!这不,今天就来给你好好扒...
安卓系统8.0镜像下载,轻松打... 你有没有想过,想要给你的安卓手机升级到最新的系统,却不知道从哪里下载那个神秘的安卓系统8.0镜像呢?...
安卓系统修改大全,全方位修改大... 你有没有想过,你的安卓手机其实是个大宝藏,里面藏着无数可以让你手机焕然一新的秘密?没错,今天就要来个...