当前位置：移动技术网 > IT编程>数据库>MSSQL > 大数据基础组件初步了解

大数据基础组件初步了解

2020年07月17日 | 移动技术网IT编程 | 我要评论

大数据基础组件

Hadoop
消息队列
数据库(关系型、非关系型)
ETL工具
数据可视化

Hadoop

HDFS：分布式文件存储系统，大数据环境的基石
MapReduce(MR)：基于磁盘计算，主要用于大量数据的批处理计算
Spark(RDD)：基于内存计算
SparkSQL：一般情况都是基于离线数据处理
Spark Streaming：一般情况是基于微批(实时)处理
Flink 正儿八经的流式计算
Flink SQL：类似SparkSQL，可以写SQL，更快的使用批处理操作
Flink Streaming：流式数据，(开发思路)生产库产生数据一部分发送至kafka、一部分落库，后续Filnk对接kafka中的Topic ，实时对kafka中数据进行去重、清洗、汇总、计算，维度可以存放至redis中。。。
…

消息队列

Kafka：可理解生产者和消费者之间的数据传递，大数据量发送传递及消费
MQ：不知道、不了解

数据库(关系型、非关系型)

Hive：主要面向于(离线)数据仓库使用，内部执行引擎(MapReduce/Spark)，读过Hive的朋友应该也知道可以自研一个开发引擎用于Hive查询HDFS数据，Hive的数据是不可修改滴！！！除非做临时表进行整表替换（以后的版本说不准）
Impala：号称是当前大数据领域最快的查询sql工具，我们在工作中都是使用Hive+Impala做离线数仓。
Hbases：典型的NoSQL、分布式存储的数据库，速度够快。
Kudu：在更新更及时的基础上实现更快的数据分析，个人感觉是在大量数据中做到更快的查询速度。
Kylin：分布式分析引擎，我们主要用于做OLAP多维数据立方体数据，就类似与Cognos中的动态CUBE。
ClickHouse：(不基于Hadoop集群，可独立安装)列式数据库，主要用于实时数据仓库，这个也是基于内存的，特点就是快、快、快。

ETL工具

sqoop 主要是用于关系型数据与分布式数据库的数据抽取任务，类似MYSQL数据抽取至HDFS/Hive.
waterdrop 此工具是字节跳动开源的，挺强大的，Kakfa->PostgreSQL、ClinkHouse->PostgreSQL、MongoDB->PostgreSQL，PostgreSQL->HDFS等等。我就使用了这么多，其他的功能还需小伙伴继续钻研
DataX 阿里开发

数据可视化

DataV 阿里开发
Davinci 宜信开发

有待更新中。。。。。。

本文地址：https://blog.csdn.net/qq_36712507/article/details/106933379

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

相关文章:

Oracle Helper

/// Sql 创建表 ///create table 表名(ID NUM... [阅读全文]
SqlServer2008实例35排名搜索之根据权值返回排名搜索结果

使用CONTAINSTABLE命令根据加权模式匹配来返回搜索结果。CONTAINSTABLE和FREETEXTT... [阅读全文]
com.alibaba.druid.sql.parser.ParserException: syntax error, error in :‘xx)

先来看下 xml错误信息14:57:58.150 [http-nio-7070-exec-26] ERROR c... [阅读全文]
Cmdbuilding搭建简易流程及问题处理

Cmdbuilding搭建简易流程及问题处理物料准备安装流程安装Pgsql安装cmdbuilding启动TOMC... [阅读全文]
PLSQL Developer 13 报错“数据库字符集（AL32UTF8）和客户端字符集（2%）是不同的。字符集转化可能会造成不可预期的后果“

PLSQL Developer 13 报错"数据库字符集（AL32UTF8）和客户端字符集（2%）是不同的。字符... [阅读全文]
实体类定义规则

实体类定义规则PO，entity：Perssent Object持久对象有时也称为Date对象，对应数据库中... [阅读全文]
sql server 替换字符串中的某些字符

declare @stringFinal nvarchar(128)declare @index intset ... [阅读全文]
SQL注入--利用floor(rand(0)*2)报错返回信息

利用floor(rand(0)*2)报错返回信息一、报错原理二、通用格式 ?id=1 union sele... [阅读全文]
Oracle SQL nvl(),listagg() within group(),TO_CHAR(),CASE WHEN THEN ELSE END

Oracle SQL 函数使用记录nvl(列名，替换值)NVL(column_name，0) 用来判断字段的值是... [阅读全文]
SqlServer2008实例32全文索引和全文目录之从全文索引中去掉普通字符串

SQL Server 2008引入了标识出那些对全文索引搜索无益的普通字符串的能力。这些无益的字符串被称为非索引... [阅读全文]

网友评论


验证码：

移动技术网