百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

Hive最全总结,学习与面试,收藏这一篇就够了!

csdh11 2025-03-26 11:13 41 浏览

Hive基础概念和用途

Hive是Hadoop下的顶级 Apache项目,早期的Hive开发工作始于2007年的 Facebook。

Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化

数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。

Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。

Hive由Facebook实现并开源。

Hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。

Apache Hive架构图


Hive组件

用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;JDBC/ODBC是Hive的JAVA实现,与传统数据库JDBC类似;WebGUI是通过浏览器访问Hive。

元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。

执行引擎 : Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。

Hive与Hadoop的关系

简单说就是Hive利用HDFS存储数据,利用MapReduce查询分析数据。

从功能来说,数据仓库软件,至少需要具备下述两种能力:

存储数据的能力、分析数据的能力

Apache Hive作为一款大数据时代的数据仓库软件,当然也具备上述两种能力。只不过Hive并不是自己实现了上述

两种能力,而是借助Hadoop。

Hive利用HDFS存储数据,利用MapReduce查询分析数据

这样突然发现Hive没啥用,不过是套壳Hadoop罢了。其实不然,Hive的最大的魅力在于用户专注于编写HQL,

Hive帮您转换成为MapReduce程序完成对数据的分析。

Apache hive的技术特点

特点:

操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。

Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。

Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。

Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

Hive应用场景

总的来说,Hive是十分适合数据仓库的统计分析和Windows注册表文件。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(Hive superimposes structure on data in HDFS),并允许使用类似于SQL语法进行数据查询。 Hive更适合于数据仓库的任务,主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。

Hive与传统的关系型数据库对比

大规模数据处理的技术了解越多,对操作系统的体会越深。以下是一些基础操作
大数据Hadoop入门教程

场景设计--Hive功能模拟实现底层猜想

Apache hive--架构图、各组件功能

Apache hive安装部署--metadata与metastore、远程模式介绍

Apache hive安装部署--与Hadoop整合、MySQL安装

Apache hive安装部署--配置文件修改编辑

Apache hive安装部署--metastore服务启动方式

Apache hive--新老客户端使用与hiveserver2服务

Apache hive--DataGrip连接Hiveserver2

Apache hive--数据库与建库、切换库操作

Apache hive--表与建表sql语句--数据类型、分隔符指定语法

Apache hive--表与建表sql语句--默认分隔符使用

Apache hive--常见的show语法

Apache hive--注释comment中文乱码解决

大数据相关:

大数据核心基础
大数据Hadoop入门教程

大数据开发
Linux零基础快速入门到精通
大数据数据开发基础MySQL8.0从入门到精通

大数据spark3.2从基础到精通

大数据Hive+Spark离线数仓工业项目实战

大数据开发编程语言:
Python入门到精通(19天全)

Python编程进阶从零到搭建网站

Python+大数据进阶教程6天掌握NoSQL实时计算基础

大数据面试八股文之Hive篇

01 Hive的三种自定义函数是什么?它们之间的区别是什么?

  • UDF:用户自定义函数,user defined function。一对一的输入输出。
  • UDTF:用户自定义表生成函数。user defined table-generate function.一对多的输入输出。
  • UDAF:用户自定义聚合函数。user defined aggregate function,多对一的输入输出比如count sum等。

02 Hive SQL语句的执行顺序

如果上来就抛给你 “select from where group by having order by” 的执行顺序

平时没有仔细研究过,这题还真不好猜。

实际上,在 hive 和 mysql 中都可以通过 explain+sql 语句,来查看执行顺序。对于一条标准 sql 语句,它的书写顺序是这样的:

select … from … where … group by … having … order by … limit …

(1)mysql 语句执行顺序:

from... where...group by... having.... select ... order by... limit …

(2)hive 语句执行顺序:

from … where … select … group by … having … order by … limit …

根据执行顺序,平时编写时需要记住以下几点: 使用分区剪裁、列剪裁,分区一定要加 少用 COUNT DISTINCT,group by 代替 distinct 是否存在多对多的关联 连接表时使用相同的关键词,这样只会产生一个 job 减少每个阶段的数据量,只选出需要的,在 join 表前就进行过滤 大表放后面 谓词下推:where 谓词逻辑都尽可能提前执行,减少下游处理的数据量 sort by 代替 order by

03 hive内部表和外部表的区别

未被external修饰的是内部表,被external修饰的为外部表。

区别:

  • 内部表数据由Hive自身管理,外部表数据由HDFS管理;
  • 内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse), 外部表数据的存储位置由自己制定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹,并将属于这个表的数据存放在这里);
  • 删除内部表会直接删除元数据(metadata)及存储数据;删除外部表仅仅会删除元数据,HDFS上的文件并不会被删除。

04 为什么要对数据仓库分层

  • 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会 存在大量冗余的数据。如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
  • 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

05 Hive 小文件过多怎么解决

  • 使用 hive 自带的 concatenate 命令,自动合并小文件
  • 调整参数减少Map数量
  • 减少Reduce的数量
  • 使用hadoop的archive将小文件归档

06 Hive有哪些方式保存元数据,各有哪些特点?

Hive支持三种不同的元存储服务器,分别为:内嵌式元存储服务器、本地元存储服务器、远程元存储服务器,每种存储方式使用不同的配置参数。

  • 内嵌式元存储主要用于单元测试,在该模式下每次只有一个进程可以连接到元存储,Derby是内嵌式元存储的默认数据库。
  • 在本地模式下,每个Hive客户端都会打开到数据存储的连接并在该连接上请求SQL查询。
  • 在远程模式下,所有的Hive客户端都将打开一个到元数据服务器的连接,该服务器依次查询元数据,元数据服务器和客户端之间使用Thrift协议通信

07 Hive的函数:UDF、UDAF、UDTF的区别?

  • UDF:单行进入,单行输出
  • UDAF:多行进入,单行输出
  • UDTF:单行输入,多行输出

08 Hive底层与数据库交互原理?

Hive 的查询功能是由 HDFS 和 MapReduce结合起来实现的,对于大规模数据查询还是不建议在 hive 中,因为过大数据量会造成查询十分缓慢。Hive 与 MySQL的关系:只是借用 MySQL来存储 hive 中的表的元数据信息,称为 metastore(元数据信息)。

09 hive中都有哪些join操作?

  • left join:以左侧为主表,返回记录与主表记录数相同,关联不上的字段为空。
  • right join:以右侧表为主表,返回记录与主表记录数相同,关联不上的字段为空。
  • full join:以两个表的记录为基准,返回两个表的记录去重之和,关联不上的字段为null。
  • cross join:返回两个表的笛卡尔积结果,不需要指定关联键。
  • map join map端连接,与普通连接的区别是这个连接中不会有reduce阶段存在,连接在map端完成。
  • common join:普通连接,在sql中不特殊指定连接方式使用的都是这种普通连接。
  • skew join:倾斜连接,主要针对数据倾斜的情况优化。
  • bucket map join:分桶连接。

10 hive 如何优化?

  • join 优化,尽量将小表放在 join 的左边,如果一个表很小可以采用 mapjoin。
  • 排序优化,order by 一个 reduce 效率低,distirbute by +sort by 也可以实现全局排序。
  • 使用分区,查询时可减少数据的检索,从而节省时间。

相关推荐

NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一

本文的作者均来自新加坡国立大学LinSLab。本文的共同第一作者为新加坡国立大学实习生许立昕和博士生刘子轩,主要研究方向为机器人学习和灵巧操纵,其余作者分别为硕士生桂哲玮、实习生郭京翔、江泽宇以及...

「PLC进阶」如何通过编写SCL语言程序实现物料分拣?

01、前言SCL作为IEC61131-3编程语言的一种,由于其高级语言的特性,特别适合复杂运算、复杂数学函数应用的场合。本文以FactoryIO软件中的物料分拣案例作为硬件基础,介绍如何通过SCL来实...

zk源码—5.请求的处理过程一(http1.1请求方法)

大纲1.服务器的请求处理链...

自己动手从0开始实现一个分布式 RPC 框架

前言为什么要自己写一个RPC框架,我觉得从个人成长上说,如果一个程序员能清楚的了解RPC框架所具备的要素,掌握RPC框架中涉及的服务注册发现、负载均衡、序列化协议、RPC通信协议、Socket通信、异...

MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,...

线程池误用导致系统假死(线程池会自动销毁吗)

背景介绍在项目中,为了提高系统性能使用了RxJava实现异步方案,其中异步线程池是自建的。但是当QPS稍微增大之后却发现系统假死、无响应和返回,调用方出现大量超时现象。但是通过监控发现,系统线程数正常...

大型乘用车工厂布局规划(六大乘用车基地)

乘用车工厂的布局规划直接影响生产效率、物流成本、安全性和未来扩展能力。合理的布局应确保生产流程顺畅、物流高效、资源优化,并符合现代化智能制造和绿色工厂的要求。以下是详细的工厂布局规划要点:1.工厂布...

西门子 S7-200 SMART PLC 连接Factory IO的方法

有很多同学不清楚如何西门子200smart如何连接FactoryIO,本教程为您提供了如何使用西门子S7-200SMARTPLC连接FactoryIO的说明。设置PC和PLC之间的...

西门子博图高级仿真软件的应用(西门子博途软件仿真)

1.博图高级仿真软件(S7-PLCSIMAdvancedV2.0)S7-PLCSIMAdvancedV2.0包含大量仿真功能,通过创建虚拟控制器对S7-1500和ET200SP控制器进行仿真...

PLC编程必踩的6大坑——请对号入座,评论区见

一、缺乏整体规划:面条式代码问题实例:某快递分拣线项目初期未做流程图设计,工程师直接开始编写传送带控制程序。后期增加质检模块时发现I/O地址冲突,电机启停逻辑与传感器信号出现3处死循环,导致项目延期2...

统信UOS无需开发者模式安装软件包
统信UOS无需开发者模式安装软件包

原文链接:统信UOS无需开发者模式安装软件包...

2025-05-05 14:55 csdh11

100个Java工具类之76:数据指纹DigestUtils

为了提高数据安全性,保证数据的完整性和真实性,DigestUtils应运而生。正确恰当地使用DigestUtils的加密算法,可以实现数据的脱敏,防止数据泄露或篡改。...

麒麟KYLINIOS软件仓库搭建02-软件仓库添加新的软件包

#秋日生活打卡季#原文链接:...

Java常用工具类技术文档(java中工具类的作用)

一、概述Java工具类(UtilityClasses)是封装了通用功能的静态方法集合,能够简化代码、提高开发效率。本文整理Java原生及常用第三方库(如ApacheCommons、GoogleG...

软路由的用法(自动追剧配置)(软路由教学)

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:值友98958248861环境和需求...