当前位置: 移动技术网 > IT编程>数据库>MSSQL > 大数据基础组件初步了解

大数据基础组件初步了解

2020年07月17日  | 移动技术网IT编程  | 我要评论

Hadoop

  1. HDFS:分布式文件存储系统,大数据环境的基石
  2. MapReduce(MR):基于磁盘计算,主要用于大量数据的批处理计算
  3. Spark(RDD):基于内存计算
    SparkSQL:一般情况都是基于离线数据处理
    Spark Streaming:一般情况是基于微批(实时)处理
  4. Flink 正儿八经的流式计算
    Flink SQL:类似SparkSQL,可以写SQL,更快的使用批处理操作
    Flink Streaming:流式数据,(开发思路)生产库产生数据一部分发送至kafka、一部分落库,后续Filnk对接kafka中的Topic ,实时对kafka中数据进行去重、清洗、汇总、计算,维度可以存放至redis中。。。

消息队列

  1. Kafka:可理解生产者和消费者之间的数据传递,大数据量发送传递及消费
  2. MQ:不知道、不了解

数据库(关系型、非关系型)

  1. Hive:主要面向于(离线)数据仓库使用,内部执行引擎(MapReduce/Spark),读过Hive的朋友应该也知道可以自研一个开发引擎用于Hive查询HDFS数据,Hive的数据是不可修改滴!!!除非做临时表进行整表替换(以后的版本说不准)
  2. Impala:号称是当前大数据领域最快的查询sql工具,我们在工作中都是使用Hive+Impala做离线数仓。
  3. Hbases: 典型的NoSQL、分布式存储的数据库,速度够快。
  4. Kudu:在更新更及时的基础上实现更快的数据分析,个人感觉是在大量数据中做到更快的查询速度。
  5. Kylin:分布式分析引擎,我们主要用于做OLAP多维数据立方体数据,就类似与Cognos中的动态CUBE。
  6. ClickHouse:(不基于Hadoop集群,可独立安装)列式数据库,主要用于实时数据仓库,这个也是基于内存的,特点就是快、快、快。

ETL工具

  1. sqoop 主要是用于关系型数据与分布式数据库的数据抽取任务,类似MYSQL数据抽取至HDFS/Hive.
  2. waterdrop 此工具是字节跳动开源的,挺强大的,Kakfa->PostgreSQL、ClinkHouse->PostgreSQL、MongoDB->PostgreSQL,PostgreSQL->HDFS等等。我就使用了这么多,其他的功能还需小伙伴继续钻研
  3. DataX 阿里开发

数据可视化

  1. DataV 阿里开发
  2. Davinci 宜信开发

有待更新中。。。。。。

本文地址:https://blog.csdn.net/qq_36712507/article/details/106933379

如对本文有疑问, 点击进行留言回复!!

相关文章:

验证码:
移动技术网