电科云

大数据 Spark

电科云Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是Hadoop MapReduce的替代方案,基于内存的计算框架,速度比MapRecduce快100倍。Spark还有Spark Streaming(实时计算框架)、SparkSQL(类似Hive)等功能组件,是对大数据体系的更新补充。

产品优势

更快的计算速度 Spark比Hadoop MapReduce快100倍。
易用性 Spark提供了大量的运算API。
通用性 Spark提供了大量的库,包括 Spark SQL、Spark Streaming、机器学习库等。
支持多种语言 Spark为java、scala、python、R语言提供了API。
多种资源管理系统 Spark支持Hadoop YARN, Apache Mesos以及自带的独立集群管理器。

核心功能

海量数据分析 Spark拥有与MapReduce相同的功能,可以对海量数据做分析统计。
快速查询 Spark SQL提供sql查询服务,能够快速查找数据。
实时计算 Spark Streaming提供实时计算服务。

应用场景

日志数据分析 对日志数据做分布式统计分析。
推荐系统 通过机器学习库,做广告推荐。
交互式查询 可以实时查询计算,功能类似于Hive,但是要快于Hive。