当前位置：移动技术网 > IT编程>数据库>其他数据库 > Kafka相关内容总结（存储和性能）

Kafka相关内容总结（存储和性能）

2019年01月04日 | 移动技术网IT编程 | 我要评论

kafka消息的存储

kafka的设计基于一种非常简单的指导思想：不是要在内存中保存尽可能多的数据，在需要时将这些数据刷新（flush）到文件系统，而是要做完全相反的事情。所有数据都要立即写入文件系统中持久化的日志中，但不进行刷新数据的任何调用。实际中这样做意味着，数据被传输到os内核的页面缓存中了，os随后会将这些数据刷新到磁盘。
大家普遍为“磁盘很慢”，因而人们都对持久化（persistent structure）结构能够提供说得过去的性能抱有怀疑态度。实际上，同人们的期望值相比，磁盘可以说是既很慢又很快，这取决决于磁盘的使用方式。设计的很好的磁盘结构可以和网络一样快。在一个由6个7200rpm的sata硬盘组成的raid-5磁盘阵列上，线性写入（linear write）的速度大约是600mb/秒，但随机写入却只有100k/秒，其中的差距接近6000倍。
kafka并没有在内存中创建缓冲区，然后再向磁盘write的方法，而是直接使用了pagecache。
os在文件系统的读写上已经做了太多的优化，pagecache就是其中最重要的一种方法.
直接使用pagecache有如下几个好处：
- 减少内存开销： java对象的内存开销（overhead）非常大，往往是对象中存储的数据所占内存的两倍以上。
- 避免gc问题：java中的内存垃圾回收会随着堆内数据不断增长而变得越来越不明确，回收所花费的代价也会越来越大。
- 简单可靠：os会调用所有的空闲内存作为pagecache，并在其上做了大量的优化：预读，后写，flush管理等，这些都不用应用层操心，而是由os自动完成。
由于这些因素，使用文件系统并依赖于pagecache页面缓存要优于自己在内存中维护一个缓存或者什么其他别的结构。

　读写空中接力

当写操作发生时，它只是将数据写入page cache中，并将该页置上dirty标志。
当读操作发生时，它会首先在page cache中查找内容，如果有就直接返回了，没有的话就会从磁盘读取文件再写回page cache。
可见，只要生产者与消费者的速度相差不大，消费者会直接读取之前生产者写入page cache的数据，大家在内存里完成接力，根本没有磁盘访问。而比起在内存中维护一份消息数据的传统做法，这既不会重复浪费一倍的内存，page cache又不需要gc(可以放心使用大把内存了)，而且即使kafka重启了，page cache还依然在。

原理分析结论

kafka使用文件系统来交换消息，性能是否比使用内存来交换消息的系统要低很多？
- 在apache kafka里，消息的读写都发生在内存中（pagecache），真正写盘的就是那条pdflush内核线程，根本不在kafka的主流程中，读操作大多数会命中pagecache，同时由于预读机制存在，所以性能非常好，从原理上有保证的。
每个分区一个文件，那么多个分区会有多个文件同时读写，是否会极大的降低性能？
- 首先，由于kafka读写流程是发生在pagecache中，后台的flush不在主流程中触发，所以正常情况下理论上是没有影响的，除非pagecache占用内存过大，或是释放导致读写消耗kafka进程的cpu时间。
- 再次，文件都是顺序读写，os层面有预读和后写机制，即使一台服务器上有多个partition文件，经过合并和排序后都能获得很好的性能，不会出现文件多了变成随机读写的情况，但是当达到相当多的数量之后，也会存在一定的影响。
- 当pagecache过大，大量触发磁盘i/o的时候，超过了/proc/sys/vm/dirty_ratio，flush会占用各个应用自己的cpu时间，会对主流程产生影响，让主流程变慢。
使用ssd盘并不能显著地改善 kafka 的性能，主要有两个原因：
- kafka写磁盘是异步的，不是同步的。就是说，除了启动、停止之外，kafka的任何操作都不会去等待磁盘同步（sync）完成；而磁盘同步(syncs)总是在后台完成的。这就是为什么kafka消息至少复制到三个副本是至关重要的，因为一旦单个副本崩溃，这个副本就会丢失数据无法同步写到磁盘。
- 每一个kafka partition被存储为一个串行的wal（write ahead log）日志文件。因此，除了极少数的数据查询，kafka中的磁盘读写都是串行的。现代的操作系统已经对串行读写做了大量的优化工作。
如何对kafka broker上持久化的数据进行加密
- 目前，kafka不提供任何机制对broker上持久化的数据进行加密。用户可以自己对写入到kafka的数据进行加密，即是，生产者(producers)在写kafka之前加密数据，消费者(consumers)能解密收到的消息。这就要求生产者(producers)把加密协议(protocols)和密钥(keys)分享给消费者(consumers)。
- 另外一种选择，就是使用软件提供的文件系统级别的加密，例如cloudera navigator encrypt。cloudera navigator encrypt是cloudera企业版(cloudera enterprise)的一部分，在应用程序和文件系统之间提供了一个透明的加密层。
kafka是否支持跨数据中心的可用性
- kafka跨数据中心可用性的推荐解决方案是使用mirrormaker。在你的每一个数据中心都搭建一个kafka集群，在kafka集群之间使用mirrormaker来完成近实时的数据复制。
- 使用mirrormaker的架构模式是为每一个”逻辑”的topic在每一个数据中心创建一个topic：例如，在逻辑上你有一个”clicks”的topic，那么你实际上有”dc1.clicks”和“dc2.clicks”两个topic(dc1和dc2指得是你的数据中心)。dc1向dc1.clicks中写数据，dc2向dc2.clicks中写数据。mirrormaker将复制所有的dc1 topics到dc2，并且复制所有的dc2 topics到dc1。现在每个dc上的应用程序都能够访问写入到两个dc的事件。这个应用程序能够合并信息和处理相应的冲突。
- 另一种更复杂的模式是在每一个dc都搭建本地和聚合kafka集群。这个模式已经被linkedin使用，linkedin kafka运维团队已经在这篇blog 中有详细的描述(参见“tiers and aggregation”)。

参考

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

HBase Filter 过滤器之FamilyFilter详解

前言：本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用，并贴出了相关示例代码以供参考。FamilyF... [阅读全文]
流媒体与实时计算，Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免... [阅读全文]
Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345"... [阅读全文]
在一个千万级的数据库查寻中，如何提高查询效率？？？？

摸清数据产生量如何，如果是1钞钟1条记录，则一台车一天就有86400条记录，则建议如下： 1、每台车使用单独的表，程序内部使用CreateTable，动... [阅读全文]
Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]