druid-docs-cn/Tutorials/chapter-1.md

90 lines
4.7 KiB
Markdown
Raw Normal View History

2020-03-27 03:04:46 -04:00
<!-- toc -->
## 加载本地文件
本教程演示了如何使用Apache Druid的本地批量数据摄取来执行批文件加载。
在本教程中,我们假设您已经按照[快速入门](../GettingStarted/chapter-1.md)中的说明下载了Druid并使用`micro-quickstart`单机配置使其在本地计算机上运行。您不需要加载任何数据。
Druid的数据加载是通过向Overlord服务提交*摄取任务说明*来启动。对于本教程我们将加载Wikipedia页面示例编辑数据。
*数据摄取任务说明*可以手动编写也可以通过Druid控制台里内置的数据加载器编写。数据加载器可以通过采样摄入的数据并配置各种摄入参数来帮助您生成*摄取任务说明*。数据加载器当前仅支持本地批处理提取将来的版本中将提供对流的支持包括存储在Apache Kafka和AWS Kinesis中的数据。目前只能通过手动书写摄入规范来进行流式摄入。
我们提供了2015年9月12日起对Wikipedia进行编辑的示例以帮助您入门。
### 使用Data Loader来加载数据
浏览器访问 [localhost:8888](http://localhost:8888) 然后点击控制台中的 `Load data`
![](img/tutorial-batch-data-loader-01.png)
选择 `Local disk` 然后点击 `Connect data`
![](img/tutorial-batch-data-loader-02.png)
`Base directory` 中输入 `quickstart/tutorial/`, 在 `File filter` 中输入 `wikiticker-2015-09-12-sampled.json.gz``Base directory``File filter` 分开是因为可能需要同时从多个文件中摄取数据。
点击 `Preview`,确保您看到的数据是正确的。
数据定位后,您可以点击"Next: Parse data"来进入下一步。
![](img/tutorial-batch-data-loader-03.png)
数据加载器将尝试自动为数据确定正确的解析器。在这种情况下,它将成功确定`json`。可以随意使用不同的解析器选项来预览Druid如何解析您的数据。
`json` 选择器被选中后,点击 `NextParse time` 进入下一步来决定您的主时间列。
![](img/tutorial-batch-data-loader-04.png)
Druid的体系结构需要一个主时间列内部存储为名为__time的列。如果您的数据中没有时间戳请选择 `固定值Constant Value` 。在我们的示例中,数据加载器将确定原始数据中的时间列是唯一可用作主时间列的候选者。
点击"Next:..."两次完成 `Transform``Filter` 步骤。您无需在这些步骤中输入任何内容,因为使用摄取时间变换和过滤器不在本教程范围内。
![](img/tutorial-batch-data-loader-05.png)
`Configure schema` 步骤中您可以配置将哪些维度和指标摄入到Druid中这些正是数据在被Druid中摄取后出现的样子。 由于我们的数据集非常小关掉rollup、确认更改。
一旦对schema满意后点击 `Next` 后进入 `Partition` 步骤,该步骤中可以调整数据如何划分为段文件的方式。
![](img/tutorial-batch-data-loader-06.png)
在这里您可以调整如何在Druid中将数据拆分为多个段。 由于这是一个很小的数据集,因此在此步骤中无需进行任何调整。
点击完成 `Tune` 步骤,进入到 `Publish` 步。
![](img/tutorial-batch-data-loader-07.png)
`Publish` 步骤中我们可以指定Druid中的数据源名称,让我们将此数据源命名为 `Wikipedia`。最后,单击 `Next` 来查看您的摄取说明。
![](img/tutorial-batch-data-loader-08.png)
这就是您构建的说明,为了查看更改将如何更新说明是可以随意返回之前的步骤中进行更改,同样,您也可以直接编辑说明,并在前面的步骤中看到它。
对摄取说明感到满意后,请单击 `Submit`,然后将创建一个数据摄取任务。
![](img/tutorial-batch-data-loader-09.png)
您可以进入任务视图,重点关注新创建的任务。任务视图设置为自动刷新,请等待任务成功。
当一项任务成功完成时意味着它建立了一个或多个段这些段现在将由Data服务器接收。
从标题导航到 `Datasources` 视图。
![](img/tutorial-batch-data-loader-10.png)
等待直到您的数据源Wikipedia出现,加载段时可能需要几秒钟。
一旦看到绿色(完全可用)圆圈,就可以查询数据源。此时,您可以转到 `Query` 视图以对数据源运行SQL查询。
![](img/tutorial-batch-data-loader-11.png)
运行 `SELECT * FROM wikipedia` 查询可以看到详细的结果。
查看[查询教程]()以对新加载的数据运行一些示例查询。
### 使用spec加载数据通过控制台
### 使用spec加载数据通过命令行
### 不使用脚本来加载数据
### 查询已加载数据
### 数据清理
### 更多信息