hive on spark 给你spark on hive区别,sparksql,Dataframe

spark on hive,hive on spark ,Spark sql ,Dataframe

spark on hive

用hive的元数据表,用spark的计算引擎。

把hive的conf文件夹中 core-site.xml, hive-site.xml放到spark的conf文件夹中

hive-site.xml的配置主要是知道jdbc的连接数据库信息

core-site.xml的配置主要是知道master的主结点。

在spark-sql中操作hive

hive on spark

把hive查询的引擎从mapreduce换成spark的执行引擎 。 需要重新编译 spark和导入jar包

参考:https://blog.csdn.net/u013411339/article/details/105760183/

http://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html

Spark sql

hive 可以写hql语句,内部引擎可以编译成map reduce .

spark sql:是spark 用于结构化数据处理的sprak模块

spark sql有自己的引擎 ,是将spark sql转化为rdd (dataframe,dataset),然后提交到集群执行。 执行效率非常快。

hive 有自己的引擎,是将hive sql转化为map reduce ,提交到集群执行,但是速度慢。

特点:

1.无缝整合sql查询和spark编程

2.相同的方式连接不同的数据源。

3.兼容hive

4.标准的数据连接,jdbc

Dataframe

dataframe是一以rdd为基础的分布式数据集,类似传统数据库的二维表格,带有schema元信息(列名,类型),是dataset的特列,dataframe=dataset[row],可以通过as 转化为dataset .

支持嵌套数据类型-struct,array,map

dataset是dataframe的一个扩展 ,强类型(一个自定义类对象),可以使用limbda表达式。

本文由 hcb 创作,采用 知识共享署名 3.0,可自由转载、引用,但需署名作者且注明文章出处。

还不快抢沙发

添加新评论