当前位置: 移动技术网 > IT编程>开发语言>Java > 电商数仓——项目需求及架构设计

电商数仓——项目需求及架构设计

2020年07月19日  | 移动技术网IT编程  | 我要评论

项目需求

一、项目需求
➢1、 数据**采集平台搭建**
➢2、 实现**用户行为数据仓库分层搭建
➢3、 实现
业务数据仓库的分层搭建
➢4、针对数据仓库中的数据进行,
留存、转化率、GMV、复购率、活跃等报表分析**
二、思考题
➢1、 项目技术如何选型 ?
➢2、框架版本如何选型( Apache、 CDH、HDP)
➢3、 服务器使用**物理机还是云主机?
➢4、 如何确认
集群规模**? (假设每台服务器8T硬盘)

项目框架

技术选型

➢数据采集传输: Flume, Kafka, Sqoop ,Logstash, DataX
➢数据存储: MySql,HDFS, HBase, Redis, MongoDB
➢数据计算: Hive, Tez,Spark, Flink, Storm
➢数据查询: Presto, Druid, Impala, Kylin
➢数据可视化: Echarts、 Superset、 QuickBI、 DataV
➢任务调度: Azkaban、 Oozie
➢集群监控: Zabbix
➢元数据管理: Atlas
➢数据质量监控: Griffin

系统数据流程设计

在这里插入图片描述

框架版本选型

1)如何选择Apache/CDH/HDP版本?
(1) Apache: 运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)
(2) CDH:国内使用最多的版本,但CM不开源,但其实**对中、小公司使用来说没有影响(建议使用)**
(3) HDP: 开源,可以进行二次开发,但是**没有CDH稳定,国内使用较少**
在这里插入图片描述

服务器选型

服务器选择物理机还是云主机?
(1)机器成本考虑:
物理机:以128G内存, 20核物理CPU,40线程,8THDD和2TSSD硬盘,戴尔
品牌单台报价4W出头,需考虑托管服务器费用。一般物理机寿命5年左右
云主机,以阿里云为例,差不多相同配置,每年5W
(2)运维成本考虑:
物理机:需要有**专业的运维人员**
云主机:很多运维工作都**由阿里云完成**,运维相对较轻松

集群资源规划设计

如何确认集群规模? (假设: 每台服务器8T磁盘,128G内存)
(1)每天日活跃用户100万,每人一天平均100条: 100万*100条=10000万条
(2)每条日志1K左右,每天1亿条: 100000001 10241 1024 =约100G .
(3)半年内不扩容服务器来算: 100G*180天=约18T
(4)保存3副本: 18T*3=54T
(5)预留20%- 30%Buf= 54T/0.7=77T
(6) 算到这:约8T*10台服务器
测试集群服务器规划
在这里插入图片描述
在这里插入图片描述

本文地址:https://blog.csdn.net/qq_46548855/article/details/107433761

如对本文有疑问, 点击进行留言回复!!

相关文章:

验证码:
移动技术网