功能特性

Databricks数据洞察包含了完整的社区版Spark的功能和特性,全面兼容Apache Spark。

Databricks数据洞察包含以下组件:
  • Spark SQL和DataFrames

    Spark SQL是用来处理结构化数据的Spark模块。DataFrames是被列化了的分布式数据集合,概念上与关系型数据库的表近似,也可以看做是R或Python中的data frame。

  • Spark Streaming

    实时数据处理和分析,可以用写批处理作业的方式写流式作业。支持Java、Scala和Python语言。

  • MLlib

    可扩展的机器学习库,包含了许多常用的算法和工具包。

  • GraphX

    Spark用于图和图并行计算的API。

  • Spark Core API

    支持R、SQL、Python、Scala、Java等多种语言。