本文将介绍用于大数据堆栈的五个最有用的架构,以及每个架构的优点,以便更好地理解和权衡。此外,还对成本、何时使用、热门产品,以及每种架构的提示和技巧进行了阐述。
自从像aws这样的公共云产品开辟了大数据分析功能以来,小企业通过挖掘大量的数据做到只有大企业才能做到的事情,至今大约有10年时间。这些事情其中包括网络日志、客户购买记录等,并通过按使需付费的方式提供低成本的商品集群。在这十年中,这些产品蓬勃发展,涵盖了从实时(亚秒级延迟)流媒体式分析到用于分析批量模式工作的企业数据仓库,而企业数据仓库则可能需要数天或数周才能完成。
以下将介绍用于大数据堆栈的五个最有用的架构,以及每个架构的优点,以便更好地理解和权衡。此外,还对成本(按$ - $$$$$的规模)、何时使用、热门产品,以及每种架构的提示和技巧进行了阐述。如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入。每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目实战。
五个大数据架构
在此并没有什么特别的顺序,用户在aws公共云旅程中可能遇到的五个顶级大数据架构是:
1. 流媒体
流媒体解决方案由以下多个因素定义:
这里有很多现实世界的例子,从特斯拉公司的电动汽车(基本上是移动的4g设备)不断将汽车的位置发送到数据中心,通知司机下一个充电站在哪里。此外,人们喜欢的日本一家高度自动化的寿司专营店:sushiro。sushiro所做的是将rfid传感器放在每个寿司盘底,然后,寿司传送带上的传感器跟踪每个盘子的动态,将数据点发送到aws kinesis,其后端响应仪表板的更新,通知寿司厨师,例如“丢掉即将过期变质的食物,或者制作更多的鸡蛋寿司,或者解冻更多的金枪鱼”,通过使用流媒体技术,该连锁店不仅有上述的实时效率推荐,而且还可以获得每家餐厅的历史信息,并且可以了解顾客购买的趋势。
sushiro是一个很好的例子,因为它符合流媒体的所有三个要求。其仪表板现在对业务运营至关重要。
2. 通用(或特定)的批处理集群
使用hadoop/spark这些系统,用户可以获得高度可扩展、低成本(商用硬件和开源软件)存储和计算,这些存储和计算可能会遇到大量问题,从而以尽可能低的成本对数据进行批量分析。
hadoop技术非常成熟,提供了一个非常丰富的软件生态系统,可以利用这些通用计算和存储资源提供从数据仓库到流媒体,甚至nosql的所有内容。
在hadoop之上,现在可以运行spark,它带有自己的可扩展框架,以低延迟(高内存)方式提供上述所有功能,甚至适用于流媒体和nosql。
3. nosql引擎
velocity(并发事务)在这里特别重要,这些引擎被设计为处理任意数量的并发读写。虽然其他系统通常不能用于最终用户(需要低延迟响应)和员工分析团队(可能会使用长时间运行的查询锁定多个表),同时,nosql引擎可以扩展以适应一个系统的两个主服务器。一些开发允许以低延迟方式实时加入和查询该数据。
4. 企业数据仓库(edw)
企业数据仓库(edw)与此处提到的其他系统截然不同。它提供了人们称之为“olap”(在线分析处理,可以支持来自内部用户的一些长时间运行的查询)与“oltp”(在线事务处理,可以支持来自最终用户的大量读取和写入)功能,如oracle的rdbms或mysql。当然,可以使用oltp系统作为企业数据仓库(edw),但是大多数人都将oltp数据库集中在最近用户的低延迟,最近事件(如“跟踪上周的订单”)需求和定期(通常是每天)窗口更旧数据输出到olap系统,业务用户可以在数月或数年的数据中运行长时间的查询。
这些olap系统使用诸如列式存储、数据非规范化(创建具有几乎无限维度的“数据立方体”)等策略,并提供rdbms级ansi 92 sql依从性,这意味着可以完全访问sql功能,并且可以定制tableau等可视化工具直接与他们合作。
5. 就地分析
几年前,presto通过提供高性能的数据分析改变了游戏规则,而无需将数据从原生的、低成本的长期存储中移出。其最终结果是,可以简单地运行查询,而不是必须为昂贵的emr或redshift集群支付全部费用。而是只按使用的内容收费。
此外,人们需要很多时间来尝试选择(然后管理)emr或redshift集群的正确节点和节点数。采用presto,人们不再知道也不关心这种差别,而这一切都在用户需要的时候起到作用。
最后,presto支持rdbms级别的ansi-92 sql兼容性,这意味着所有可视化工具都可以直接使用它,具有的sql背景可以在ad-hoc查询中全面使用。
把它们放在一起
通过了解将在公共云中运行的五个顶级大数据架构,用户现在可以获得有关最佳应用位置的可操作信息,以及潜伏的位置。
一旦用户开始在aws公共云中构建大数据架构,将很快了解到更多的架构,并且在很多情况下,企业可能会最终同时使用上述所有内容,可能使用kinesis将客户数据流媒体传输到dynamodb和s3。用户可能偶尔会在该源数据上启动emr(进行某些机器学习)或redshift(分析kpi)集群,或者可以选择以可以通过aws athena就地访问的方式格式化数据,让它像企业数据仓库(edw)一样发挥作用。
具有执行tmtowtdi的能力是一件好事,aws公司努力提供最适合用户需求的服务。如果用户从头开始,在aws认证的全球知识培训课程中花费三天时间将可以提供满足其需求的服务,并让用户尽快开始运营,并且顺利实施。
如对本文有疑问, 点击进行留言回复!!
HBase Filter 过滤器之FamilyFilter详解
去 HBase,Kylin on Parquet 性能表现如何?
如何找到Hive提交的SQL相对应的Yarn程序的applicationId
网友评论