Hadoop 入门基础 及HiveQL
创始人
2024-05-08 23:34:12
0

一、hadoop 解决了什么问题?即hadoop 产生背景

一个能够轻松方便、经济实惠地存储和分析大量数据的非常流行的开源项目。

二、hadoop 是如何低成本地解决大数据的存储和分析的?即hadoop 原理,hadoop 的组成部分

Hadoop的创始人、Cloudera首席架构师Doug Cutting。结合 Google的三篇论文,《Google File System》、《Google Bigtable》和《Google MapReduce》(其实描述的就是Google的三种技术,GFS分布式文件系统,Bigtable分布式数据存储系统,MapReduce编程模型,都是基于分布式并行运行的,都是部署在大量普通机器组成的集群之上,其实相互之间都有相似之处,也能协调在一起运行和工作。这也是在2003到2006年之间Google陆续发表的论文,三篇文章的重要目的就是解决分布式并行计算的问题。为大数据技术的发展和应用提供了可能。)用java语言开发了hadoop。hadoop 一般指代 HDFS+MapReduce+YRN 及其生态,Hbase 对应《Google Bigtable》。
在这里插入图片描述

三、如何使用hadoop解决问题?即hadoop的使用

详细见文 hive 和 hbase 的应用场景、联系、区别
1.Hive:通俗的说是一个数据仓库,严格来说,不是数据库,仓库中的数据是被HDFS管理的数据文件,它支持类似sql语句的功能,你可以通过该语句完成分布式环境下的计算功能,Hive会把语句转换成MapReduce,然后交给Hadoop执行。这里的计算,仅限于查找和分析,而不是更新、增加和删除。它的优势是对历史数据进行处理,用时下流行的说法是离线计算,因为它的底层是MapReduce,MapReduce在实时计算上性能很差。它的做法是把数据文件加载进来作为一个Hive表(或者外部表),让你觉得你的sql操作的是传统的表。

Hive中的表为纯逻辑表,仅仅对表的元数据进行定义。Hive没有物理存储的功能,它完全依赖HDFS和MapReduce。

Hive全面支持SQL,一般可以用来进行基于历史数据的挖掘、分析。

Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统

2.HBase:Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。HBase以Google BigTable为蓝本,以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。

通俗的说,HBase的作用类似于数据库,传统数据库管理的是集中的本地数据文件,而HBase基于HDFS实现对分布式数据文件的管理,比如增删改查。也就是说,HBase只是利用Hadoop的HDFS帮助其管理数据的持久化文件(HFile),它跟MapReduce没任何关系。HBase的优势在于实时计算,所有实时数据都直接存入HBase中,客户端通过API直接访问HBase,实现实时计算。由于它使用的是nosql,或者说是列式结构,从而提高了查找性能,使其能运用于大数据场景,这是它跟MapReduce的区别。

HBase表则是物理表,适合存放非结构化的数据。

HBase为列模式,这样使得对海量数据的随机访问变得可行。

HBase是准实时系统,可以实现数据的实时查询。

基于HBase的查询,支持和row-level的更新。

HBase不适用于有join,多级索引,表关系复杂的应用场景。

HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。

3.两者使用场景的区别:

HBase的应用场景通常是采集网页数据的存储,因为它是key-value型数据库,从而可以到各种key-value应用场景,例如存储日志信息,对于内容信息不需要完全结构化出来的类CMS应用等。注意hbase针对的仍然是OLTP应用为主。

hive主要针对的是OLAP应用,其底层是hdfs分布式文件系统,重点是基于一个统一的查询分析层,支撑OLAP应用中的各种关联,分组,聚合类SQL语句。hive一般只用于查询分析统计,而不能是常见的CUD操作,要知道HIVE是需要从已有的数据库或日志进行同步最终入到hdfs文件系统中,当前要做到增量实时同步都相当困难。

最后补充一下:Hive可以直接操作HDFS中的文件作为它的表的数据,也可以使用HBase数据库作为它的表

四、hive架构 hiveQL 执行过程及语法

1.hive架构
在这里插入图片描述

2.hiveql执行过程

在这里插入图片描述

3.hiveql语法
官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual
hiveql 和 mysql oracle sql 基本类似。可以搜索hiveql基础操作

4.如何写入数据到hive中?
1.从文件导入
2.通过查询语句插入

5.为什么用hive 不用oracle 或mysql
hive OLAP 大量数据的离线分析,响应速度慢。
oracle 或mysql OLTP 小量数据的在线插入查询,响应速度快。

相关内容

热门资讯

安卓系统计划软件推荐,精选计划... 你有没有发现,手机里的安卓系统越来越智能了?这不,最近我可是挖到了一些超棒的安卓计划软件,它们不仅能...
收钱吧安卓系统插件,便捷支付新... 你有没有发现,现在的生活越来越离不开手机了?手机里装满了各种应用,而今天我要跟你聊聊一个特别实用的工...
鸿蒙系统是否还属于安卓,独立于... 你有没有想过,那个在我们手机上默默无闻的鸿蒙系统,它到底是不是安卓的“亲戚”呢?这个问题,估计不少手...
安卓系统手机用什么钱包,轻松管... 你有没有想过,你的安卓系统手机里装了那么多应用,但最离不开的,可能就是那个小小的钱包了。没错,就是那...
安卓系统能玩部落冲突吗,部落冲... 你有没有想过,安卓系统上的手机,是不是也能玩那款风靡全球的《部落冲突》呢?这款游戏自从推出以来,就吸...
智能机器人安卓系统,引领未来智... 你知道吗?在科技飞速发展的今天,智能机器人已经不再是科幻电影里的专属了。它们正悄悄地走进我们的生活,...
华为win10系统改装安卓系统... 你有没有想过,你的华为笔记本电脑里的Windows 10系统,能不能来个华丽变身,变成安卓系统呢?这...
旧电脑上安什么安卓系统,适配不... 你那台旧电脑是不是已经闲置好久了?别让它默默无闻地躺在角落里,给它来个华丽变身吧!今天,就让我来告诉...
安卓app语言跟随系统,随系统... 你知道吗?在手机世界里,有一个神奇的小功能,它就像你的贴身翻译官,无论你走到哪里,都能帮你轻松应对各...
惠城安卓系统降级在哪,揭秘降级... 你有没有遇到过手机系统升级后,发现新系统让你头疼不已,想回到那个熟悉的安卓系统呢?别急,今天就来告诉...
阿里云系统转安卓,揭秘安卓平台... 你知道吗?最近有个大动作在互联网圈里引起了不小的波澜,那就是阿里云系统竟然要转战安卓阵营了!这可不是...
安卓系统有最美壁纸么,探寻最美... 哦,亲爱的安卓用户,你是否曾在某个午后,百无聊赖地翻看着手机,突然被那一张张壁纸惊艳了眼眸?是的,我...
安卓系统采用Linux操作系统... 你知道吗?安卓系统,这个在我们手机上无处不在的小家伙,它的心脏竟然是Linux操作系统内核!是不是觉...
安卓原生平板通用系统,探索安卓... 你有没有发现,现在市面上平板电脑的品牌和型号真是五花八门,让人挑花了眼?不过,你知道吗?在众多安卓平...
小米1系统是安卓几,搭载安卓几... 你有没有想过,你的小米手机里那个熟悉的系统,其实是基于安卓的哦!没错,就是那个全球最流行的手机操作系...
可以安装安卓系统的相机,智能摄... 你有没有想过,一台相机不仅能拍出美美的照片,还能像智能手机一样,玩转各种应用?没错,现在市面上就有这...
安卓系统gps定位不准,安卓G... 你是不是也遇到过这种情况?手机里的安卓系统GPS定位总是不准,让人头疼不已。有时候,你明明就在家附近...
电信机顶盒装安卓系统,开启智能... 你有没有想过,家里的电信机顶盒其实也可以装上安卓系统呢?听起来是不是有点不可思议?别急,让我带你一步...
安卓系统可以做苹果桌面,打造个... 你知道吗?现在科技的发展真是让人眼花缭乱,竟然有人想出了安卓系统可以做苹果桌面的神奇想法!是不是觉得...
安卓系统自带的网页,功能与特色... 你有没有发现,每次打开安卓手机,那熟悉的系统界面里总有一个默默无闻的小家伙——安卓系统自带的网页浏览...