add dimensionspec part-1

2021-01-20 16:59:37 +08:00 · 2021-01-20 16:59:37 +08:00 · 023840056e
commit 023840056e
parent 5162015cc3
1 changed files with 220 additions and 1 deletions
--- a/Querying/dimensionspec.md
+++ b/Querying/dimensionspec.md
@ -35,4 +35,223 @@
 }
 ```

-#### 带过滤的DimensionSpec
+当在一个数值列上指定了DimensionSpec，用户需要在 `outputType`字段中包括列的类型。 如果未指定，则 `outputType` 默认为STRING。
+
+详情可以参见 [输出类型](#输出类型)
+
+#### 带提取函数的DimensionSpec
+
+返回被给定的[提取函数](#提取函数)转换后的维度值。
+
+```json
+{
+  "type" : "extraction",
+  "dimension" : <dimension>,
+  "outputName" :  <output_name>,
+  "outputType": <"STRING"|"LONG"|"FLOAT">,
+  "extractionFn" : <extraction_function>
+}
+```
+
+也可以在`ExtractionDimensionSpec`中指定`outputType`，以便在合并之前对结果应用类型转换。 如果未指定，`outputType` 默认为STRING。
+
+详情可以参见 [输出类型](#输出类型)
+#### 带过滤的DimensionSpec
+
+该项功能仅仅对多值维度是比较有用的。如果你在Apache Druid中有一个值为 ["v1","v2","v3"] 的行，当发送一个带有对维度值为"v1"进行[查询过滤](filters.md)的GroupBy/TopN查询, 在响应中，将会得到包含"v1","v2","v3"的三行数据。这个行为在大多数场景是不适合的。
+
+之所以会发生这种情况，是因为"查询过滤器"是在位图上内部使用的，并且只用于匹配要包含在查询结果处理中的行。对于多值维度，"查询过滤器"的行为类似于包含检查，它将匹配维度值为["v1"、"v2"、"v3"]的行。有关更多详细信息，请参阅[段](../Design/Segments.md)中"多值列"一节, 然后groupBy/topN处理管道"分解"所有多值维度，得到3行"v1"、"v2"和"v3"。
+
+除了有效地选择要处理的行的"查询过滤器"之外，还可以使用带过滤的DimensionSpec来筛选多值维度值中的特定值。这些维度规范采用代理维度规范和筛选条件。从"分解"行中，查询结果中只返回与给定筛选条件匹配的行。
+
+以下带过滤的DimensionSpec充当"isWhitelist"属性值的值的白名单或黑名单。
+
+```json
+{ "type" : "listFiltered", "delegate" : <dimensionSpec>, "values": <array of strings>, "isWhitelist": <optional attribute for true/false, default is true> }
+```
+
+以下带过滤的DimensionSpec仅保留与正则匹配的值。请注意，`listFiltered`比这个更快，对于白名单或黑名单用例应该使用它。
+
+```json
+{ "type" : "regexFiltered", "delegate" : <dimensionSpec>, "pattern": <java regex pattern> }
+```
+
+以下带过滤的DimensionSpec仅保留以相同前缀开头的值。
+
+```json
+{ "type" : "prefixFiltered", "delegate" : <dimensionSpec>, "prefix": <prefix string> }
+```
+
+更多详细信息和实例，可以参见 [多值维度](multi-value-dimensions.md)
+
+#### 带Lookup的DimensionSpec
+
+> [!WARNING]
+> Lookups是一个[实验性的特性](../Development/experimental.md)
+
+带Lookup的DimensionSpec可用于将lookup实现直接定义为维度规范。一般来说，有两种不同类型的查找实现。第一种是在查询时像map实现一样传递的。
+
+```json
+{
+  "type":"lookup",
+  "dimension":"dimensionName",
+  "outputName":"dimensionOutputName",
+  "replaceMissingValueWith":"missing_value",
+  "retainMissingValue":false,
+  "lookup":{"type": "map", "map":{"key":"value"}, "isOneToOne":false}
+}
+```
+
+`retainMissingValue` 和 `replaceMissingValueWith` 属性可以在查询时候被指定来显示的标识如何操作缺失值。 将 `replaceMissingValueWith` 设置为 `""` 与设置为 `null`具有同等作用。 将 `retainMissingValue` 设置为true的话，如果未在Lookup中找到则使用维度的原始值。 默认下，`retainMissingValue = false` 和 `replaceMissingValueWith = null`, 即缺失值当做丢失来处理。
+
+将`retainMissingValue`设置为true且同时指定了`replaceMissingValueWith`，这是不合法的。
+
+可以提供属性`optimize`以允许优化基于Lookup的提取过滤器（默认情况下 `optimize=true` ）。
+
+第二种类型由于其大小原因而无法在查询时传递，它将基于已经通过配置文件 或/和 Coordinator注册的外部Lookup表或资源。
+
+```json
+{
+  "type":"lookup",
+  "dimension":"dimensionName",
+  "outputName":"dimensionOutputName",
+  "name":"lookupName"
+}
+```
+
+### 输出类型
+
+DimensionSpec提供了一个选项来指定列值的输出类型。这是必要的，因为具有给定名称的列可能在不同的段中具有不同的值类型；结果将在合并之前转换为`outputType`指定的类型。
+
+请注意，并非所有DimensionSpec用例当前都支持`outputType`，下表显示了哪些用例支持此选项：
+
+| 查询类型 | 是否支持 |
+|-|-|
+| GroupBy(v1) | 不支持 |
+| GroupBy(v2) | 支持 |
+| TopN | 支持 |
+| Search | 不支持 |
+| Select | 不支持 |
+| Cardinality Aggregator | 不支持 |
+
+### 提取函数
+
+提取函数定义了应用于每一个维度值的转换。这种转换可以适用于一般的维度，也同时适用于特殊的 `__time` 维度，时间维度标识了根据[查询粒度](AggregationGranularity.md)返回的当前时间bucket
+
+**请注意**，对于那些需要传字符串值的函数，`__time`维度值在进入提取函数前首先格式化为 [ISO-8610格式](https://en.wikipedia.org/wiki/ISO_8601)
+
+#### 正则表达式提取函数
+
+返回给定正则表达式的第一个匹配组。如果不匹配，则按原样返回维度值。
+
+```json
+{
+  "type" : "regex",
+  "expr" : <regular_expression>,
+  "index" : <group to extract, default 1>
+  "replaceMissingValue" : true,
+  "replaceMissingValueWith" : "foobar"
+}
+```
+
+例如，使用 `"expr" : "(\\w\\w\\w).*"` 会将 `'Monday'`, `'Tuesday'`, `'Wednesday'` 转换为 `'Mon'`, `'Tue'`, `'Wed'`.
+
+如果 `index` 被设置，将控制提取哪个匹配组。 index为0表示提取整个模式配置的字符串。
+
+如果 `replaceMissingValue` 属性设置为true，提取函数将与正则模式不匹配的维度值转换为用户指定的字符串。 默认是 `false`。
+
+如果 `replaceMissingValueWith` 属性用来设置当 `replaceMissingValue = true` 时不匹配的维度值被替换的目标值。 如果 `replaceMissingValueWith` 未指定，不匹配的维度值将被替换为null。
+
+例如， 如果在上边的JSON中 `expr` 为 `"(a\w+)"` , 这是一个匹配以字母 `a` 开头的单次， 提取函数将会把 `banana` 转化为 `foobar`. 
+
+#### Partial提取函数
+
+如果正则表达式匹配了则返回原值，否则返回null
+
+```json
+{ "type" : "partial", "expr" : <regular_expression> }
+```
+
+#### SearchQuery提取函数
+
+如果给定的 [SearchQuerySpec](searchquery.md) 匹配到值则原值返回，否则返回null
+
+```json
+{ "type" : "searchQuery", "query" : <search_query_spec> }
+```
+
+#### Substring提取函数
+
+返回从提供的索引开始的维度值和所需长度的子字符串。索引和长度都是以字符串中存在的Unicode代码单元的数量来度量的，就好像它是用UTF-16编码的一样。请注意，某些Unicode字符可能由两个代码单元表示。这与Java String类的"substring"方法的行为相同。
+
+如果所需的长度超过维度值的长度，则返回从索引开始的字符串的其余部分。如果索引大于维度值的长度，则返回null。
+
+```json
+{ "type" : "substring", "index" : 1, "length" : 4 }
+```
+
+对于返回从索引开始的维度值的剩余部分的子字符串，可以省略长度；如果索引大于维度值的长度，则可以为null。
+
+```json
+{ "type" : "substring", "index" : 3 }
+```
+#### Strlen提取函数
+
+返回维度值的长度，以字符串中存在的Unicode代码单位的数量度量，就好像它是用UTF-16编码的一样。请注意，某些Unicode字符可能由两个代码单元表示。这与Java String类的"length"方法的行为相同。
+
+null字符串被认定为长度为0
+
+```json
+{ "type" : "strlen" }
+```
+#### TimeFormat提取函数
+
+返回根据给定格式字符串、时区和区域设置格式化的维度值。
+
+对于 `__time` 维度值，这将格式化由 [聚合粒度](granularity.md) 限定的时间值
+
+对于一般的维度，它假设字符串已经被格式化为 [ISO-8601的日期与时间格式](https://en.wikipedia.org/wiki/ISO_8601)
+* `format`: 用于结果维度值的日期时间格式， 格式为 [Joda时间格式](https://www.joda.org/joda-time/apidocs/org/joda/time/format/DateTimeFormat.html) , 或者为null则使用默认的ISO8601格式
+* `locale`: 使用由 [IETF BCP 47语言标签](http://www.oracle.com/technetwork/java/javase/java8locales-2095355.html#util-text) 给定的地区（语言和国家），例如 `en-US`, `en-GB`, `fr-FR`, `fr-CA`
+* `timeZone`: 使用 [IANA tz数据库格式](http://en.wikipedia.org/wiki/List_of_tz_database_time_zones) 的时区，例如： `Europe/Berlin`(这可能与聚合时区不同)
+* `granularity`: 格式化之前的粒度， 或者不使用粒度
+* `asMillis`: 布尔值，设置为true以将输入字符串视为毫秒而不是ISO8601字符串。此外，如果 `format` 为null或未指定，输出将以毫秒而不是ISO8601为单位。
+
+```json
+{ "type" : "timeFormat",
+  "format" : <output_format> (optional),
+  "timeZone" : <time_zone> (optional, default UTC),
+  "locale" : <locale> (optional, default current locale),
+  "granularity" : <granularity> (optional, default none) ,
+  "asMillis" : <true or false> (optional) }
+```
+
+例如，以下维度规范以法语返回Montréal的星期几：
+
+```json
+{
+  "type" : "extraction",
+  "dimension" : "__time",
+  "outputName" :  "dayOfWeek",
+  "extractionFn" : {
+    "type" : "timeFormat",
+    "format" : "EEEE",
+    "timeZone" : "America/Montreal",
+    "locale" : "fr"
+  }
+}
+```
+
+#### TimeParsing提取函数
+
+#### JavaScript提取函数
+
+#### 已注册的Lookup提取函数
+
+#### Cascade提取函数
+
+#### StringFormat提取函数
+
+#### 大小写提取函数
+
+#### Bucket提取函数