spark SQL编程
2. sparkSQL编程2.1创建DataFrame在SparkSQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:通过S
2. spark SQL编程
2.1 创建DataFrame
在Spark SQL中SparkSessiON是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:
通过Spark的数据源进行创建;
从一个存在的RDD进行转换;
还可以从Hive Table进行查询返回。
2.2 从Spark数据源进行创建
(1)数据准备,在/opt/module/spark-local目录下创建一个user.json文件
{"age":20,"name":"qiaofeng"}
{"age":19,"name":"xuzhu"}
{"age":18,"name":"duanyu"}
(2)查看Spark支持创建文件的数据源格式,使用tab键查看
scala> spark.read.
csv format jdbc json load option options orc parquet schema table text textFile
(3)读取json文件创建DataFrame
scala> val df = spark.read.json("/opt/module/spark-local/user.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]
(4)查看DataFrame算子
scala> df.
(5)展示结果
scala> df.show
+---+--------+
|age| name|
+---+--------+
| 20|qiaofeng|
| 19| xuzhu|
| 18| duanyu|
+---+--------+
相关文章
发表评论
评论列表
- 这篇文章还没有收到评论,赶紧来抢沙发吧~