native batch part-8

This commit is contained in:
liujianhuan 2020-05-15 21:25:13 +08:00
parent 3a04caa414
commit 06e708bd72
1 changed files with 198 additions and 0 deletions

View File

@ -871,9 +871,207 @@ azure对象
| `path` | 数据路径 | None | 是 | | `path` | 数据路径 | None | 是 |
#### HDFS输入源 #### HDFS输入源
> [!WARNING]
> 您需要添加 [`druid-hdfs-extensions`](../Configuration/core-ext/hdfs.md) 扩展以便使用HDFS输入源。
HDFS输入源支持直接从HDFS存储中读取文件文件路径可以指定为HDFS URI字符串或者HDFS URI字符串列表。HDFS输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务将读取一个或多个文件。
样例规范:
```
...
"ioConfig": {
"type": "index_parallel",
"inputSource": {
"type": "hdfs",
"paths": "hdfs://foo/bar/", "hdfs://bar/foo"
},
"inputFormat": {
"type": "json"
},
...
},
...
```
```
...
"ioConfig": {
"type": "index_parallel",
"inputSource": {
"type": "hdfs",
"paths": ["hdfs://foo/bar", "hdfs://bar/foo"]
},
"inputFormat": {
"type": "json"
},
...
},
...
```
```
...
"ioConfig": {
"type": "index_parallel",
"inputSource": {
"type": "hdfs",
"paths": "hdfs://foo/bar/file.json", "hdfs://bar/foo/file2.json"
},
"inputFormat": {
"type": "json"
},
...
},
...
```
```
...
"ioConfig": {
"type": "index_parallel",
"inputSource": {
"type": "hdfs",
"paths": ["hdfs://foo/bar/file.json", "hdfs://bar/foo/file2.json"]
},
"inputFormat": {
"type": "json"
},
...
},
...
```
| 属性 | 描述 | 默认 | 是否必须 |
|-|-|-|-|
| `type` | 应该总是 `hdfs` | None | 是 |
| `paths` | HDFS路径。可以是JSON数组或逗号分隔的路径字符串这些路径支持类似*的通配符。给定路径之下的空文件将会被跳过。 | None | 是 |
您还可以使用HDFS输入源从云存储摄取数据。但是如果您想从AWS S3或谷歌云存储读取数据可以考虑使用 [S3输入源](../Configuration/core-ext/s3.md) 或 [谷歌云存储输入源](../Configuration/core-ext/google-cloud-storage.md)。
#### HTTP输入源 #### HTTP输入源
HTTP输入源支持直接通过HTTP从远程站点直接读取文件。 HTTP输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务只能读取一个文件。
样例规范:
```
...
"ioConfig": {
"type": "index_parallel",
"inputSource": {
"type": "http",
"uris": ["http://example.com/uri1", "http://example2.com/uri2"]
},
"inputFormat": {
"type": "json"
},
...
},
...
```
使用DefaultPassword Provider的身份验证字段示例这要求密码位于摄取规范中
```
...
"ioConfig": {
"type": "index_parallel",
"inputSource": {
"type": "http",
"uris": ["http://example.com/uri1", "http://example2.com/uri2"],
"httpAuthenticationUsername": "username",
"httpAuthenticationPassword": "password123"
},
"inputFormat": {
"type": "json"
},
...
},
...
```
您还可以使用其他现有的Druid PasswordProvider。下面是使用EnvironmentVariablePasswordProvider的示例
```
...
"ioConfig": {
"type": "index_parallel",
"inputSource": {
"type": "http",
"uris": ["http://example.com/uri1", "http://example2.com/uri2"],
"httpAuthenticationUsername": "username",
"httpAuthenticationPassword": {
"type": "environment",
"variable": "HTTP_INPUT_SOURCE_PW"
}
},
"inputFormat": {
"type": "json"
},
...
},
...
}
```
| 属性 | 描述 | 默认 | 是否必须 |
|-|-|-|-|
| `type` | 应该是 `http` | None | 是 |
| `uris` | 输入文件的uris | None | 是 |
| `httpAuthenticationUsername` | 用于指定uri的身份验证的用户名。如果规范中指定的uri需要基本身份验证头则改属性是可选的。 | None | 否 |
| `httpAuthenticationPassword` | 用于指定uri的身份验证的密码。如果规范中指定的uri需要基本身份验证头则改属性是可选的。 | None | 否 |
#### Inline输入源 #### Inline输入源
Inline输入源可用于读取其规范内联的数据。它可用于演示或用于快速测试数据解析和schema。
样例规范:
```
...
"ioConfig": {
"type": "index_parallel",
"inputSource": {
"type": "inline",
"data": "0,values,formatted\n1,as,CSV"
},
"inputFormat": {
"type": "csv"
},
...
},
...
```
| 属性 | 描述 | 是否必须 |
|-|-|-|
| `type` | 应该是 `inline` | 是 |
| `data` | 要摄入的内联数据 | 是
#### Local输入源 #### Local输入源
Local输入源支持直接从本地存储中读取文件主要目的用于PoC测试。 Local输入源是可拆分的可以由 [并行任务](#并行任务) 使用,其中 `index_parallel` 的每个worker任务读取一个或者多个文件。
样例规范:
```
...
"ioConfig": {
"type": "index_parallel",
"inputSource": {
"type": "local",
"filter" : "*.csv",
"baseDir": "/data/directory",
"files": ["/bar/foo", "/foo/bar"]
},
"inputFormat": {
"type": "csv"
},
...
},
...
```
| 属性 | 描述 | 是否必须 |
|-|-|-|
| `type` | 应该是 `local` | 是 |
| `filter` | 文件的通配符筛选器, 详细信息 [点击此处](http://commons.apache.org/proper/commons-io/apidocs/org/apache/commons/io/filefilter/WildcardFileFilter.html) 查看 | 如果 `baseDir` 指定了,则为必须 |
| `baseDir` | 递归搜索要接收的文件的目录, 将跳过 `baseDir` 下的空文件。 | `baseDir` 或者 `files` 至少需要被指定一个 |
| `files` | 要摄取的文件路径。如果某些文件位于指定的 `baseDir` 下,则可以忽略它们以避免摄取重复文件。该选项会跳过空文件。| `baseDir` 或者 `files` 至少需要被指定一个 |
#### Druid输入源 #### Druid输入源
### Firehoses(已废弃) ### Firehoses(已废弃)
#### StaticS3Firehose #### StaticS3Firehose