hive on spark 给你spark on hive区别,sparksql,Dataframe
spark on hive,hive on spark ,Spark sql ,Dataframe
spark on hive
用hive的元数据表,用spark的计算引擎。
把hive的conf文件夹中 core-site.xml, hive-site.xml放到spark的conf文件夹中
hive-site.xml的配置主要是知道jdbc的连接数据库信息
core-site.xml的配置主要是知道master的主结点。
在spark-sql中操作hive
hive on spark
把hive查询的引擎从mapreduce换成spark的执行引擎 。 需要重新编译 spark和导入jar包
参考:https://blog.csdn.net/u013411339/article/details/105760183/
http://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html
Spark sql
hive 可以写hql语句,内部引擎可以编译成map reduce .
spark sql:是spark 用于结构化数据处理的sprak模块
spark sql有自己的引擎 ,是将spark sql转化为rdd (dataframe,dataset),然后提交到集群执行。 执行效率非常快。
hive 有自己的引擎,是将hive sql转化为map reduce ,提交到集群执行,但是速度慢。
特点:
1.无缝整合sql查询和spark编程
2.相同的方式连接不同的数据源。
3.兼容hive
4.标准的数据连接,jdbc
Dataframe
dataframe是一以rdd为基础的分布式数据集,类似传统数据库的二维表格,带有schema元信息(列名,类型),是dataset的特列,dataframe=dataset[row],可以通过as 转化为dataset .
支持嵌套数据类型-struct,array,map
dataset是dataframe的一个扩展 ,强类型(一个自定义类对象),可以使用limbda表达式。
还不快抢沙发