原创博文来自: http://www.sychzs.cn/BYRans/p/5003029.html 谢谢!
转载请注明出处:http://www.sychzs.cn/BYRans/
Spark SQL是Spark的一个组件,用于结构化数据的计算。 Spark SQL 提供了一种称为 DataFrames 的编程抽象,它可以充当分布式 SQL 查询引擎。
DataFrame 是使用命名列集成的分布式数据集合。 DataFrame可以理解为关系数据库中的表,也可以理解为R/Python中的数据框。 DataFrame 可以由各种数据构建,例如结构化数据文件、hive 中的表、外部数据库、Spark 计算时生成的 RDD 等。
DataFrame 的 API 支持 4 种语言:Scala、Java、Python 和 R。