what is druid

This commit is contained in:
刘建环 2020-03-24 09:55:31 +08:00
parent ef7cc9ea5f
commit fd544ebcb9
1 changed files with 26 additions and 0 deletions

View File

@ -1,2 +1,28 @@
### Druid是什么
Apache Druid是一个实时分析型数据库旨在对大型数据集进行快速的查询分析"[OLAP](https://en.wikipedia.org/wiki/Online_analytical_processing)"查询)。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景同时Druid也通常被用来助力分析型应用的图形化界面或者当做需要快速聚合的高并发后端APIDruid最适合应用于面向事件类型的数据。
Druid通常应用于以下场景
* 点击流分析Web端和移动端
* 网络监测分析(网络性能监控)
* 服务指标存储
* 供应链分析(制造类指标)
* 应用性能指标分析
* 数字广告分析
* 商务智能 / OLAP
Druid的核心架构吸收和结合了[数据仓库](https://en.wikipedia.org/wiki/Data_warehouse)、[时序数据库](https://en.wikipedia.org/wiki/Time_series_database)以及[检索系统](https://en.wikipedia.org/wiki/Search_engine_(computing))的优势,其主要特征如下:
1. **列式存储**Druid使用列式存储这意味着在一个特定的数据查询中它只需要查询特定的列这样极地提高了部分列查询场景的性能。另外每一列数据都针对特定数据类型做了优化存储从而支持快速的扫描和聚合。
2. **可扩展的分布式系统**Druid通常部署在数十到数百台服务器的集群中并且可以提供每秒数百万条记录的接收速率数万亿条记录的保留存储以及亚秒级到几秒的查询延迟。
3. **大规模并行处理**Druid可以在整个集群中并行处理查询。
4. **实时或批量摄取**Druid可以实时已经被摄取的数据可立即用于查询或批量摄取数据。
5. **自修复、自平衡、易于操作**作为集群运维操作人员要伸缩集群只需添加或删除服务集群就会在后台自动重新平衡自身而不会造成任何停机。如果任何一台Druid服务器发生故障系统将自动绕过损坏。 Druid设计为7*24全天候运行无需出于任何原因而导致计划内停机包括配置更改和软件更新。
6. **不会丢失数据的云原生容错架构**一旦Druid摄取了数据副本就安全地存储在[深度存储介质](Design/../chapter-1.md)通常是云存储HDFS或共享文件系统中。即使某个Druid服务发生故障也可以从深度存储中恢复您的数据。对于仅影响少数Druid服务的有限故障副本可确保在系统恢复时仍然可以进行查询。
7. **用于快速过滤的索引**Druid使用[CONCISE](https://arxiv.org/pdf/1004.0403.pdf)或[Roaring](https://roaringbitmap.org/)压缩的位图索引来创建索引,以支持快速过滤和跨多列搜索。
8. **基于时间的分区**Druid首先按时间对数据进行分区另外同时可以根据其他字段进行分区。这意味着基于时间的查询将仅访问与查询时间范围匹配的分区这将大大提高基于时间的数据的性能。
9. **近似算法**Druid应用了近似count-distinct近似排序以及近似直方图和分位数计算的算法。这些算法占用有限的内存使用量通常比精确计算要快得多。对于精度要求比速度更重要的场景Druid还提供了精确count-distinct和精确排序。
10. **摄取时自动汇总聚合**Druid支持在数据摄取阶段可选地进行数据汇总这种汇总会部分预先聚合您的数据并可以节省大量成本并提高性能。
### 什么场景下应该使用Druid