Kylin 新定位：分析型数据仓库_其他数据库

亲爱的各位社区朋友：

apache kylin 在 2014 年 10 月开源并加入 apache 软件基金会的孵化器，一年后从孵化器毕业成为 apache 顶级项目。从第一天起，kylin 的标语是「extreme olap engine for big data」。五年来，kylin 已经成为了大数据版图中一个不可或缺的角色，帮助了全球上千家企业进行高效的大数据分析。

经过五年的发展，如今回头看，我们发现 kylin 已经不仅仅是一个 olap 分析引擎。它的完整能力已经被被广大社区用户证实超越了「olap engine」的范畴，被广泛应用于不同的场景，扮演更加全面的角色：

当年 ebay 发起 kylin 项目时，寄希望它能够将部分负载从昂贵的专有商业数据仓库如 teradata 迁移到廉价、开放的大数据平台上。五年过去了，kylin 凭借高性能和高可用性在 ebay 内部被广泛使用，而 teradata 逐步被替换。今天，kylin 在 ebay 每天服务数百万次查询，且大多数查询在 1 秒钟内完成。
美团、携程、京东、滴滴、小米、华为、丁香园，olx 集团、汽车之家、xactly 等许多公司都使用 kylin 打造了他们的 daas（数据即服务）平台，为成千上万的分析师和租户提供数据服务。
一些微软 ssas 的用户也正在逐步迁移到 kylin 上，以承载更大的数据容量和获得更好的体验。
中国银联和某头部保险集团从 ibm cognos 架构升级到 hadoop + kylin。因为分布式架构的优势，kylin 对传统方案具备降维打击的能力，在某些场景中，一个 kylin cube 取代了数百个 cognos cube，不但管理运维的复杂度大大降低，并且具有更好的构建性能和查询性能。
建设银行、农业银行等已经使用 kylin + hadoop 来构建下一代大数据分析平台，解决扩容难和并发低的难题。

从这些用户案例可以看出，社区用户们不仅仅把 kylin 当作功能单一的引擎使用，而是使用 kylin 来替换传统分析型数据仓库的工作。下面我们就来看一下什么是数据仓库吧。

数据仓库的定义有很多，下面是一个广泛被接纳的定义【1】：a data warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management’s decision-making process.

翻译一下就是：数据仓库是面向主题的、集成的、体现时间变化的，以及非易变的一组数据集合，以支持管理者做出关键决策。

对照到 kylin 的能力:

在 kylin 中，你可以为每个分析主题或场景，创建一个或多个olap cube；每个 cube 都是面向特定主题的。
kylin 与 hadoop、 hive、spark、kafka 等系统实现了无缝集成，你可以在大数据平台上很容易地使用它。这也是为什么 kylin 很容易被接纳的原因之一。
kylin会按照时间来分区加载数据，构建 cube，然后保存为片段(也称分区)；对于维度表，kylin 每次会生成快照。这些数据在分析过程中是稳定的，不会随意改变。
当你在分析(上滚、下钻等)过程中，kylin 的数据是稳定一致的，所有层级的汇总结果都严格一致。
kylin 提供了 sql 查询接口和 jdbc/odbc/http api，用户将其与 bi/可视化工具（如 tableau 等）轻松连接。

从这里可以看出，kylin 的实现，与数据仓库的关键特性不谋而合。事实上，当初设计 kylin 的时候，团队也是受了数据仓库概念非常大的影响。

architecture of apache kylin

经过社区开发者们的不断努力，如今 kylin 不再只是一个加速器，它提供了丰富完整的能力：友好的 web 界面，向导式的设计器，自动化的任务生成和数据加载，高性能的查询和存储引擎，完善的 api 接口，完整的用户权限和安全控制等，结合 hadoop 的分布式存储和计算框架，它已经足以构成一个完整的分析型数据仓库方案。在开源大数据技术中，kylin 是独一无二的，融合了传统数据仓库的经典理论和大数据的前沿技术；它设计优雅，架构可扩展可插拔，能够适应从 gb 到 pb 甚至 eb 规模的数据。

2020 年 3 月，kylin 社区通过讨论，决定将 kylin 的标语从「extreme olap engine for big data」更改为「analytical data warehouse for big data」【2】，以更加准确地描述 kylin 的能力和定位，也更容易地让用户通过搜索引擎检索到它，将它推介给更多用户，应用于更多场景中。

一路走来，感谢各位的贡献与支持，下一个五年，期待有更多创新！

史少锋

apache kylin pmc chair

相关阅读：

【1】 https://walkerscott.co/2017/10/data-warehouse/

【2】 https://kylin.apache.org/

了解更多大数据资讯，点击进入kyligence官网