druid-docs-cn/GettingStarted/chapter-1.md

50 lines
4.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

<!-- toc -->
### Druid是什么
Apache Druid是一个实时分析型数据库旨在对大型数据集进行快速的查询分析"[OLAP](https://en.wikipedia.org/wiki/Online_analytical_processing)"查询)。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景同时Druid也通常被用来助力分析型应用的图形化界面或者当做需要快速聚合的高并发后端APIDruid最适合应用于面向事件类型的数据。
Druid通常应用于以下场景
* 点击流分析Web端和移动端
* 网络监测分析(网络性能监控)
* 服务指标存储
* 供应链分析(制造类指标)
* 应用性能指标分析
* 数字广告分析
* 商务智能 / OLAP
Druid的核心架构吸收和结合了[数据仓库](https://en.wikipedia.org/wiki/Data_warehouse)、[时序数据库](https://en.wikipedia.org/wiki/Time_series_database)以及[检索系统](https://en.wikipedia.org/wiki/Search_engine_(computing))的优势,其主要特征如下:
1. **列式存储**Druid使用列式存储这意味着在一个特定的数据查询中它只需要查询特定的列这样极地提高了部分列查询场景的性能。另外每一列数据都针对特定数据类型做了优化存储从而支持快速的扫描和聚合。
2. **可扩展的分布式系统**Druid通常部署在数十到数百台服务器的集群中并且可以提供每秒数百万条记录的接收速率数万亿条记录的保留存储以及亚秒级到几秒的查询延迟。
3. **大规模并行处理**Druid可以在整个集群中并行处理查询。
4. **实时或批量摄取**Druid可以实时已经被摄取的数据可立即用于查询或批量摄取数据。
5. **自修复、自平衡、易于操作**作为集群运维操作人员要伸缩集群只需添加或删除服务集群就会在后台自动重新平衡自身而不会造成任何停机。如果任何一台Druid服务器发生故障系统将自动绕过损坏。 Druid设计为7*24全天候运行无需出于任何原因而导致计划内停机包括配置更改和软件更新。
6. **不会丢失数据的云原生容错架构**一旦Druid摄取了数据副本就安全地存储在[深度存储介质](Design/../chapter-1.md)通常是云存储HDFS或共享文件系统中。即使某个Druid服务发生故障也可以从深度存储中恢复您的数据。对于仅影响少数Druid服务的有限故障副本可确保在系统恢复时仍然可以进行查询。
7. **用于快速过滤的索引**Druid使用[CONCISE](https://arxiv.org/pdf/1004.0403.pdf)或[Roaring](https://roaringbitmap.org/)压缩的位图索引来创建索引,以支持快速过滤和跨多列搜索。
8. **基于时间的分区**Druid首先按时间对数据进行分区另外同时可以根据其他字段进行分区。这意味着基于时间的查询将仅访问与查询时间范围匹配的分区这将大大提高基于时间的数据的性能。
9. **近似算法**Druid应用了近似count-distinct近似排序以及近似直方图和分位数计算的算法。这些算法占用有限的内存使用量通常比精确计算要快得多。对于精度要求比速度更重要的场景Druid还提供了精确count-distinct和精确排序。
10. **摄取时自动汇总聚合**Druid支持在数据摄取阶段可选地进行数据汇总这种汇总会部分预先聚合您的数据并可以节省大量成本并提高性能。
### 什么场景下应该使用Druid
许多公司都已经将Druid应用于多种不同的应用场景详情可查看[Powered by Apache Druid](https://druid.apache.org/druid-powered)页面。
如果您的使用场景符合以下的几个特征那么Druid是一个非常不错的选择
* 数据插入频率比较高,但较少更新数据
* 大多数查询场景为聚合查询和分组查询GroupBy同时还有一定得检索与扫描查询
* 将数据查询延迟目标定位100毫秒到几秒钟之间
* 数据具有时间属性Druid针对时间做了优化和设计
* 在多表场景下每次查询仅命中一个大的分布式表查询又可能命中多个较小的lookup表
* 场景中包含高基维度数据列例如URL用户ID等并且需要对其进行快速计数和排序
* 需要从Kafka、HDFS、对象存储如Amazon S3中加载数据
如果您的使用场景符合以下特征那么使用Druid可能是一个不好的选择
* 根据主键对现有数据进行低延迟更新操作。Druid支持流式插入但不支持流式更新更新操作是通过后台批处理作业完成
* 延迟不重要的离线数据系统
* 场景中包括大连接(将一个大事实表连接到另一个大事实表),并且可以接受花费很长时间来完成这些查询