在近期的 apache kylin × apache hudi meetup 直播上,apache kylin pmc chair 史少锋和 kyligence 解决方案工程师刘永恒就 hudi + kylin 的准实时数仓实现进行了介绍与演示。下文是分享现场的回顾。
我的分享主题是《基于 hudi 和 kylin 构建准实时、高性能数据仓库》,除了讲义介绍,还安排了 demo 实操环节。下面是今天的日程:但是,数据湖开始设计主要是用于数据的存储,解决的是容量的水平扩展性、数据的持久性和高可用性,没有太多考虑数据的更新和删除。例如 hdfs 上通常是将文件分块(block)存储,一个 block 通常一两百兆;s3 同样也是类似,大的 block 可以节省管理开销,并且这些文件格式不一,通常没有高效的索引。如果要修改文件中的某一行记录,对于数据湖来说是非常难操作的,因为它不知道要修改的记录在哪个文件的哪个位置,它提供的方式仅仅是做批量替换,代价比较大。
去 HBase,Kylin on Parquet 性能表现如何?
如何找到Hive提交的SQL相对应的Yarn程序的applicationId
如何在 HBase Shell 命令行正常查看十六进制编码的中文?哈哈~
网友评论