diff --git a/tutorials/tutorial-kafka.md b/tutorials/tutorial-kafka.md index 187094b..6902b3b 100644 --- a/tutorials/tutorial-kafka.md +++ b/tutorials/tutorial-kafka.md @@ -141,13 +141,13 @@ Druid 要求所有数据必须有一个 timestamp 的主键字段(这个主键 请访问 [query tutorial](../tutorials/tutorial-query.md) 页面中的内容来了解如何针对一个新载入的数据如何运行查询。 -### Submit a supervisor via the console +### 通过控制台来提交一个 supervisor -In the console, click `Submit supervisor` to open the submit supervisor dialog. +在控制台中,单击 `Submit supervisor` 来打开一个 supervisor 对话框。 ![Submit supervisor](../assets/tutorial-kafka-submit-supervisor-01.png "Submit supervisor") -Paste in this spec and click `Submit`. +请将下面的内容配置参数拷贝张贴到打开的对话框中,然后单击 `Submit` 提交。 ```json { @@ -210,9 +210,9 @@ Paste in this spec and click `Submit`. } ``` -This will start the supervisor that will in turn spawn some tasks that will start listening for incoming data. +上面将会启动一个 supervisor,启动 supervisor 将会负责对任务进行管理,使用启动的任务来完成对数据的输入和从 Kafka 中获取数据。 -### Submit a supervisor directly +### 直接提交一个 supervisor To start the service directly, we will need to submit a supervisor spec to the Druid overlord by running the following from the Druid package root: @@ -252,84 +252,6 @@ For more information on loading data from Kafka streams, please see the [Druid K -上一个命令将示例事件发布到名称为*wikipedia*的Kafka主题。现在,我们将使用Druid的Kafka索引服务从新创建的主题中提取消息。 - -### 使用数据加载器(Data Loader) - -浏览器访问 [localhost:8888](http://localhost:8888) 然后点击控制台中的 `Load data` - -![](img-2/tutorial-kafka-data-loader-01.png) - -选择 `Apache Kafka` 然后点击 `Connect data` - -![](img-2/tutorial-kafka-data-loader-02.png) - -在 `Bootstrap servers` 输入 `localhost:9092`, 在 `Topic` 输入 `wikipedia` - -点击 `Preview` 后确保您看到的数据是正确的 - -数据定位后,您可以点击"Next: Parse data"来进入下一步。 - -![](img-2/tutorial-kafka-data-loader-03.png) - -数据加载器将尝试自动为数据确定正确的解析器。在这种情况下,它将成功确定`json`。可以随意使用不同的解析器选项来预览Druid如何解析您的数据。 - -`json` 选择器被选中后,点击 `Next:Parse time` 进入下一步来决定您的主时间列。 - -![](img-2/tutorial-kafka-data-loader-04.png) - -Druid的体系结构需要一个主时间列(内部存储为名为__time的列)。如果您的数据中没有时间戳,请选择 `固定值(Constant Value)` 。在我们的示例中,数据加载器将确定原始数据中的时间列是唯一可用作主时间列的候选者。 - -点击"Next:..."两次完成 `Transform` 和 `Filter` 步骤。您无需在这些步骤中输入任何内容,因为使用摄取时间变换和过滤器不在本教程范围内。 - -![](img-2/tutorial-kafka-data-loader-05.png) - -在 `Configure schema` 步骤中,您可以配置将哪些维度和指标摄入到Druid中,这些正是数据在被Druid中摄取后出现的样子。 由于我们的数据集非常小,关掉rollup、确认更改。 - -一旦对schema满意后,点击 `Next` 后进入 `Partition` 步骤,该步骤中可以调整数据如何划分为段文件的方式。 - -![](img-2/tutorial-kafka-data-loader-06.png) - -在这里,您可以调整如何在Druid中将数据拆分为多个段。 由于这是一个很小的数据集,因此在此步骤中无需进行任何调整。 - -点击完成 `Tune` 步骤。 - -![](img-2/tutorial-kafka-data-loader-07.png) - -在 `Tune` 步骤中,将 `Use earliest offset` 设置为 `True` *非常重要*,因为我们需要从流的开始位置消费数据。 其他没有任何需要更改的地方,进入到 `Publish` 步 - -![](img-2/tutorial-kafka-data-loader-08.png) - -我们将该数据源命名为 `wikipedia-kafka` - -最后点击 `Next` 预览摄入规范: - -![](img-2/tutorial-kafka-data-loader-09.png) - -这就是您构建的规范,为了查看更改将如何更新规范是可以随意返回之前的步骤中进行更改,同样,您也可以直接编辑规范,并在前面的步骤中看到它。 - -对摄取规范感到满意后,请单击 `Submit`,然后将创建一个数据摄取任务 - -![](img-2/tutorial-kafka-data-loader-10.png) - -您可以进入任务视图,重点关注新创建的supervisor。任务视图设置为自动刷新,请等待直到Supervisor启动了一个任务。 - -当一项任务开始运行时,它将开始处理其摄入的数据。 - -从标题导航到 `Datasources` 视图。 - -![](img-2/tutorial-kafka-data-loader-11.png) - -当 `wikipedia-kafka` 数据源出现在这儿的时候就可以被查询了。 - -> ![TIPS] -> 如果过了几分钟之后数据源还是没有出现在这里,可能是在 `Tune` 步骤中没有设置为从流的开始进行消费数据 - -此时,就可以在 `Query` 视图中运行SQL查询了,因为这是一个小的数据集,你可以简单的运行 `SELECT * FROM "wikipedia-kafka"` 来查询结果。 - -![](img-2/tutorial-kafka-data-loader-12.png) - -查看[查询教程](../querying/makeNativeQueries.md)以对新加载的数据运行一些示例查询。 #### 通过控制台提交supervisor