功能特性
Databricks数据洞察包含了完整的社区版Spark的功能和特性,全面兼容Apache Spark。
Databricks数据洞察包含以下组件:
- Spark SQL和DataFrames
Spark SQL是用来处理结构化数据的Spark模块。DataFrames是被列化了的分布式数据集合,概念上与关系型数据库的表近似,也可以看做是R或Python中的data frame。
- Spark Streaming
实时数据处理和分析,可以用写批处理作业的方式写流式作业。支持Java、Scala和Python语言。
- MLlib
可扩展的机器学习库,包含了许多常用的算法和工具包。
- GraphX
Spark用于图和图并行计算的API。
- Spark Core API
支持R、SQL、Python、Scala、Java等多种语言。