海外主机测评

您现在的位置是:首页 > 服务器 > 正文

服务器

spark SQL编程

cds8202022-11-25服务器126
2. sparkSQL编程2.1创建DataFrame在SparkSQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:通过S

2.  spark SQL编程

2.1 创建DataFrame

  • 在Spark SQL中SparkSessiON是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:

    • 通过Spark的数据源进行创建;

    • 从一个存在的RDD进行转换;

    • 还可以从Hive Table进行查询返回。

2.2 从Spark数据源进行创建

(1)数据准备,在/opt/module/spark-local目录下创建一个user.json文件

{"age":20,"name":"qiaofeng"}
{"age":19,"name":"xuzhu"}
{"age":18,"name":"duanyu"}

(2)查看Spark支持创建文件的数据源格式,使用tab键查看

scala> spark.read.
csv  format  jdbc  json  load  option  options  orc  parquet  schema  table  text  textFile

(3)读取json文件创建DataFrame

scala> val df = spark.read.json("/opt/module/spark-local/user.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

(4)查看DataFrame算子

scala> df.

(5)展示结果

scala> df.show
+---+--------+
|age|    name|
+---+--------+
| 20|qiaofeng|
| 19|   xuzhu|
| 18|  duanyu|
+---+--------+

 

发表评论

评论列表

  • 这篇文章还没有收到评论,赶紧来抢沙发吧~