删除已经整理完成的第一章节内容

2021-07-23 14:42:26 -04:00 · 2021-07-23 14:42:26 -04:00 · 0ab6ef9cf5
parent f1d57ee40f
commit 0ab6ef9cf5
2 changed files with 0 additions and 61 deletions
--- a/GettingStarted/chapter-1.md
+++ b/GettingStarted/chapter-1.md
@ -1,60 +0,0 @@
 <!-- toc -->
 <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>
 <ins class="adsbygoogle"
     style="display:block; text-align:center;"
     data-ad-layout="in-article"
     data-ad-format="fluid"
     data-ad-client="ca-pub-8828078415045620"
     data-ad-slot="7586680510"></ins>
 <script>
     (adsbygoogle = window.adsbygoogle || []).push({});
 </script>
 ### Druid是什么
 Apache Druid是一个实时分析型数据库，旨在对大型数据集进行快速的查询分析（"[OLAP](https://en.wikipedia.org/wiki/Online_analytical_processing)"查询)。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景，同时，Druid也通常被用来助力分析型应用的图形化界面，或者当做需要快速聚合的高并发后端API，Druid最适合应用于面向事件类型的数据。
 Druid通常应用于以下场景：
 * 点击流分析（Web端和移动端）
 * 网络监测分析（网络性能监控）
 * 服务指标存储
 * 供应链分析（制造类指标）
 * 应用性能指标分析
 * 数字广告分析
 * 商务智能 / OLAP
 Druid的核心架构吸收和结合了[数据仓库](https://en.wikipedia.org/wiki/Data_warehouse)、[时序数据库](https://en.wikipedia.org/wiki/Time_series_database)以及[检索系统](https://en.wikipedia.org/wiki/Search_engine_(computing))的优势，其主要特征如下：
 1. **列式存储**，Druid使用列式存储，这意味着在一个特定的数据查询中它只需要查询特定的列，这样极地提高了部分列查询场景的性能。另外，每一列数据都针对特定数据类型做了优化存储，从而支持快速的扫描和聚合。
 2. **可扩展的分布式系统**，Druid通常部署在数十到数百台服务器的集群中，并且可以提供每秒数百万条记录的接收速率，数万亿条记录的保留存储以及亚秒级到几秒的查询延迟。
 3. **大规模并行处理**，Druid可以在整个集群中并行处理查询。
 4. **实时或批量摄取**，Druid可以实时（已经被摄取的数据可立即用于查询）或批量摄取数据。
 5. **自修复、自平衡、易于操作**，作为集群运维操作人员，要伸缩集群只需添加或删除服务，集群就会在后台自动重新平衡自身，而不会造成任何停机。如果任何一台Druid服务器发生故障，系统将自动绕过损坏。 Druid设计为7*24全天候运行，无需出于任何原因而导致计划内停机，包括配置更改和软件更新。
 6. **不会丢失数据的云原生容错架构**，一旦Druid摄取了数据，副本就安全地存储在[深度存储介质](Design/../chapter-1.md)（通常是云存储，HDFS或共享文件系统）中。即使某个Druid服务发生故障，也可以从深度存储中恢复您的数据。对于仅影响少数Druid服务的有限故障，副本可确保在系统恢复时仍然可以进行查询。
 7. **用于快速过滤的索引**，Druid使用[CONCISE](https://arxiv.org/pdf/1004.0403.pdf)或[Roaring](https://roaringbitmap.org/)压缩的位图索引来创建索引，以支持快速过滤和跨多列搜索。
 8. **基于时间的分区**，Druid首先按时间对数据进行分区，另外同时可以根据其他字段进行分区。这意味着基于时间的查询将仅访问与查询时间范围匹配的分区，这将大大提高基于时间的数据的性能。
 9. **近似算法**，Druid应用了近似count-distinct，近似排序以及近似直方图和分位数计算的算法。这些算法占用有限的内存使用量，通常比精确计算要快得多。对于精度要求比速度更重要的场景，Druid还提供了精确count-distinct和精确排序。
 10. **摄取时自动汇总聚合**，Druid支持在数据摄取阶段可选地进行数据汇总，这种汇总会部分预先聚合您的数据，并可以节省大量成本并提高性能。
 ### 什么场景下应该使用Druid
 许多公司都已经将Druid应用于多种不同的应用场景，详情可查看[Powered by Apache Druid](https://druid.apache.org/druid-powered)页面。
 如果您的使用场景符合以下的几个特征，那么Druid是一个非常不错的选择：
 * 数据插入频率比较高，但较少更新数据
 * 大多数查询场景为聚合查询和分组查询（GroupBy），同时还有一定得检索与扫描查询
 * 将数据查询延迟目标定位100毫秒到几秒钟之间
 * 数据具有时间属性（Druid针对时间做了优化和设计）
 * 在多表场景下，每次查询仅命中一个大的分布式表，查询又可能命中多个较小的lookup表
 * 场景中包含高基维度数据列（例如URL，用户ID等），并且需要对其进行快速计数和排序
 * 需要从Kafka、HDFS、对象存储（如Amazon S3）中加载数据
 如果您的使用场景符合以下特征，那么使用Druid可能是一个不好的选择：
 * 根据主键对现有数据进行低延迟更新操作。Druid支持流式插入，但不支持流式更新（更新操作是通过后台批处理作业完成）
 * 延迟不重要的离线数据系统
 * 场景中包括大连接（将一个大事实表连接到另一个大事实表），并且可以接受花费很长时间来完成这些查询
--- a/SUMMARY.md
+++ b/SUMMARY.md
@ -14,7 +14,6 @@
  * [官方原版英文文档](https://druid.apache.org/docs/latest/design/)
 * [新手入门]()
  * [Druid介绍](GettingStarted/chapter-1.md)
  * [快速开始](GettingStarted/chapter-2.md)
  * [Docker](tutorials/docker.md)
  * [单服务器部署](GettingStarted/chapter-3.md)