native batch part-9

This commit is contained in:
liujianhuan 2020-05-16 15:36:47 +08:00
parent 06e708bd72
commit be46e364ef
2 changed files with 49 additions and 22 deletions

View File

@ -38,7 +38,7 @@ Apache Druid当前支持两种类型的本地批量索引任务 `index_parall
一个简易的任务如下所示: 一个简易的任务如下所示:
``` ```json
{ {
"type": "index_parallel", "type": "index_parallel",
"spec": { "spec": {
@ -265,7 +265,7 @@ supervisor任务提供了一些HTTP接口来获取任务状态。
如果supervisor任务以并行的方式运行则返回当前阶段的预估进度 如果supervisor任务以并行的方式运行则返回当前阶段的预估进度
一个示例结果如下: 一个示例结果如下:
``` ```json
{ {
"running":10, "running":10,
"succeeded":0, "succeeded":0,
@ -301,7 +301,7 @@ supervisor任务提供了一些HTTP接口来获取任务状态。
返回指定ID的worker任务规范的状态如果该supervisor任务以序列模式运行则返回一个HTTP 404。 返回的结果集中包括worker任务规范当前任务状态(如果存在的话) 以及任务尝试历史记录。 返回指定ID的worker任务规范的状态如果该supervisor任务以序列模式运行则返回一个HTTP 404。 返回的结果集中包括worker任务规范当前任务状态(如果存在的话) 以及任务尝试历史记录。
一个示例结果如下: 一个示例结果如下:
``` ```json
{ {
"spec": { "spec": {
"id": "index_parallel_lineitem_2018-04-20T22:12:43.610Z_2", "id": "index_parallel_lineitem_2018-04-20T22:12:43.610Z_2",
@ -490,7 +490,7 @@ supervisor任务提供了一些HTTP接口来获取任务状态。
一个示例任务如下: 一个示例任务如下:
``` ```json
{ {
"type" : "index", "type" : "index",
"spec" : { "spec" : {
@ -647,7 +647,7 @@ PartitionsSpec用于描述辅助分区方法。您应该根据需要的rollup模
S3输入源支持直接从S3读取对象。可以通过S3 URI字符串列表或S3位置前缀列表指定对象该列表将尝试列出内容并摄取位置中包含的所有对象。S3输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务将读取一个或多个对象。 S3输入源支持直接从S3读取对象。可以通过S3 URI字符串列表或S3位置前缀列表指定对象该列表将尝试列出内容并摄取位置中包含的所有对象。S3输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务将读取一个或多个对象。
样例规范: 样例规范:
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -663,7 +663,7 @@ S3输入源支持直接从S3读取对象。可以通过S3 URI字符串列表或S
... ...
``` ```
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -679,7 +679,7 @@ S3输入源支持直接从S3读取对象。可以通过S3 URI字符串列表或S
... ...
``` ```
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -732,7 +732,7 @@ S3对象
谷歌云存储输入源支持直接从谷歌云存储读取对象可以通过谷歌云存储URI字符串列表指定对象。谷歌云存储输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务将读取一个或多个对象。 谷歌云存储输入源支持直接从谷歌云存储读取对象可以通过谷歌云存储URI字符串列表指定对象。谷歌云存储输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务将读取一个或多个对象。
样例规范: 样例规范:
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -747,7 +747,7 @@ S3对象
}, },
... ...
``` ```
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -762,7 +762,7 @@ S3对象
}, },
... ...
``` ```
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -805,7 +805,7 @@ S3对象
Azure输入源支持直接从Azure读取对象可以通过Azure URI字符串列表指定对象。Azure输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务将读取一个或多个对象。 Azure输入源支持直接从Azure读取对象可以通过Azure URI字符串列表指定对象。Azure输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务将读取一个或多个对象。
样例规范: 样例规范:
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -820,7 +820,7 @@ Azure输入源支持直接从Azure读取对象可以通过Azure URI字符串
}, },
... ...
``` ```
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -835,7 +835,7 @@ Azure输入源支持直接从Azure读取对象可以通过Azure URI字符串
}, },
... ...
``` ```
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -878,7 +878,7 @@ azure对象
HDFS输入源支持直接从HDFS存储中读取文件文件路径可以指定为HDFS URI字符串或者HDFS URI字符串列表。HDFS输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务将读取一个或多个文件。 HDFS输入源支持直接从HDFS存储中读取文件文件路径可以指定为HDFS URI字符串或者HDFS URI字符串列表。HDFS输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务将读取一个或多个文件。
样例规范: 样例规范:
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -893,7 +893,7 @@ HDFS输入源支持直接从HDFS存储中读取文件文件路径可以指定
}, },
... ...
``` ```
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -908,7 +908,7 @@ HDFS输入源支持直接从HDFS存储中读取文件文件路径可以指定
}, },
... ...
``` ```
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -923,7 +923,7 @@ HDFS输入源支持直接从HDFS存储中读取文件文件路径可以指定
}, },
... ...
``` ```
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -951,7 +951,7 @@ HDFS输入源支持直接从HDFS存储中读取文件文件路径可以指定
HTTP输入源支持直接通过HTTP从远程站点直接读取文件。 HTTP输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务只能读取一个文件。 HTTP输入源支持直接通过HTTP从远程站点直接读取文件。 HTTP输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务只能读取一个文件。
样例规范: 样例规范:
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -968,7 +968,7 @@ HTTP输入源支持直接通过HTTP从远程站点直接读取文件。 HTTP输
``` ```
使用DefaultPassword Provider的身份验证字段示例这要求密码位于摄取规范中 使用DefaultPassword Provider的身份验证字段示例这要求密码位于摄取规范中
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -987,7 +987,7 @@ HTTP输入源支持直接通过HTTP从远程站点直接读取文件。 HTTP输
``` ```
您还可以使用其他现有的Druid PasswordProvider。下面是使用EnvironmentVariablePasswordProvider的示例 您还可以使用其他现有的Druid PasswordProvider。下面是使用EnvironmentVariablePasswordProvider的示例
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -1021,7 +1021,7 @@ HTTP输入源支持直接通过HTTP从远程站点直接读取文件。 HTTP输
Inline输入源可用于读取其规范内联的数据。它可用于演示或用于快速测试数据解析和schema。 Inline输入源可用于读取其规范内联的数据。它可用于演示或用于快速测试数据解析和schema。
样例规范: 样例规范:
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -1047,7 +1047,7 @@ Inline输入源可用于读取其规范内联的数据。它可用于演示或
Local输入源支持直接从本地存储中读取文件主要目的用于PoC测试。 Local输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务读取一个或者多个文件。 Local输入源支持直接从本地存储中读取文件主要目的用于PoC测试。 Local输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务读取一个或者多个文件。
样例规范: 样例规范:
``` ```json
... ...
"ioConfig": { "ioConfig": {
"type": "index_parallel", "type": "index_parallel",
@ -1073,6 +1073,32 @@ Local输入源支持直接从本地存储中读取文件主要目的用于PoC
| `files` | 要摄取的文件路径。如果某些文件位于指定的 `baseDir` 下,则可以忽略它们以避免摄取重复文件。该选项会跳过空文件。| `baseDir` 或者 `files` 至少需要被指定一个 | | `files` | 要摄取的文件路径。如果某些文件位于指定的 `baseDir` 下,则可以忽略它们以避免摄取重复文件。该选项会跳过空文件。| `baseDir` 或者 `files` 至少需要被指定一个 |
#### Druid输入源 #### Druid输入源
Druid输入源支持直接从现有的Druid段读取数据可能使用新的模式并更改段的名称、维度、Metrics、Rollup等。Druid输入源是可拆分的可以由 [并行任务](#并行任务) 使用。这个输入源有一个固定的从Druid段读取的输入格式当使用这个输入源时不需要在摄取规范中指定输入格式字段。
| 属性 | 描述 | 是否必须 |
|-|-|-|
| `type` | 应该是 `druid` | 是 |
| `dataSource` | 定义要从中获取行的Druid数据源 | 是 |
| `interval` | ISO-8601时间间隔的字符串它定义了获取数据的时间范围。 | 是 |
| `dimensions` | 包含要从Druid数据源中选择的维度列名称的字符串列表。如果列表为空则不返回维度。如果为空则返回所有维度。 | 否 |
| `metrics` | 包含要选择的Metric列名称的字符串列表。如果列表为空则不返回任何度量。如果为空则返回所有Metric。 | 否 |
| `filter` | 详情请查看 [filters](../Querying/filters.html) 如果指定,则只返回与筛选器匹配的行。 | 否 |
DruidInputSource规范的最小示例如下所示
```json
...
"ioConfig": {
"type": "index_parallel",
"inputSource": {
"type": "druid",
"dataSource": "wikipedia",
"interval": "2013-01-01/2013-01-02"
}
...
},
...
```
### Firehoses(已废弃) ### Firehoses(已废弃)
#### StaticS3Firehose #### StaticS3Firehose
#### HDFSFirehose #### HDFSFirehose

1
Querying/filters.html Normal file
View File

@ -0,0 +1 @@
<!-- toc -->