Merge pull request #98 from metamx/druid-sql

Basic SQL grammar for Druid
2013-03-07 11:14:54 -08:00 · 2013-03-07 11:14:54 -08:00 · bb1b3cd2f9
parent e2552cc033 614d7801a4
commit bb1b3cd2f9
5 changed files with 556 additions and 3 deletions
--- a/client/pom.xml
+++ b/client/pom.xml
@ -191,6 +191,14 @@
            <artifactId>caliper</artifactId>
            <scope>test</scope>
        </dependency>
+        <dependency>
+            <groupId>org.antlr</groupId>
+            <artifactId>antlr4-runtime</artifactId>
+        </dependency>
+        <dependency>
+            <groupId>commons-cli</groupId>
+            <artifactId>commons-cli</artifactId>
+        </dependency>
    </dependencies>

    <build>
@ -205,6 +213,18 @@
                    </execution>
                </executions>
            </plugin>
-        </plugins>
+
+            <plugin>
+              <groupId>org.antlr</groupId>
+              <artifactId>antlr4-maven-plugin</artifactId>
+              <executions>
+                <execution>
+                  <goals>
+                    <goal>antlr4</goal>
+                  </goals>
+                </execution>
+              </executions>
+            </plugin>
+          </plugins>
    </build>
 </project>
--- a/client/src/main/antlr4/com/metamx/druid/sql/antlr4/DruidSQL.g4
+++ b/client/src/main/antlr4/com/metamx/druid/sql/antlr4/DruidSQL.g4
@ -0,0 +1,305 @@
+grammar DruidSQL;
+
+@header {
+import com.metamx.druid.aggregation.post.*;
+import com.metamx.druid.aggregation.*;
+import com.metamx.druid.query.filter.*;
+import com.metamx.druid.query.dimension.*;
+import com.metamx.druid.*;
+
+import com.google.common.base.*;
+import com.google.common.collect.Lists;
+import org.joda.time.*;
+
+import java.text.*;
+import java.util.*;
+}
+
+@parser::members {
+    public Map<String, AggregatorFactory> aggregators = new LinkedHashMap<String, AggregatorFactory>();
+    public List<PostAggregator> postAggregators = new LinkedList<PostAggregator>();
+    public DimFilter filter;
+    public List<org.joda.time.Interval> intervals;
+    public List<String> fields = new LinkedList<String>();
+    public QueryGranularity granularity = QueryGranularity.ALL;
+    public Map<String, DimensionSpec> groupByDimensions = new LinkedHashMap<String, DimensionSpec>();
+    
+    String dataSourceName = null;
+    
+    public String getDataSource() {
+        return dataSourceName;
+    }
+    
+    public String unescape(String quoted) {
+        String unquote = quoted.trim().replaceFirst("^'(.*)'\$", "\$1");
+        return unquote.replace("''", "'");
+    }
+
+    AggregatorFactory evalAgg(String name, int fn) {
+        switch (fn) {
+            case SUM: return new DoubleSumAggregatorFactory("sum("+name+")", name);
+            case MIN: return new MinAggregatorFactory("min("+name+")", name);
+            case MAX: return new MaxAggregatorFactory("max("+name+")", name);
+            case COUNT: return new CountAggregatorFactory(name);
+        }
+        throw new IllegalArgumentException("Unknown function [" + fn + "]"); 
+    }
+    
+    PostAggregator evalArithmeticPostAggregator(PostAggregator a, List<Token> ops, List<PostAggregator> b) {
+        if(b.isEmpty()) return a;
+        else {            
+            int i = 0;
+            
+            PostAggregator root = a;
+            while(i < ops.size()) {
+                List<PostAggregator> list = new LinkedList<PostAggregator>();
+                List<String> names = new LinkedList<String>();
+
+                names.add(root.getName());
+                list.add(root);
+                
+                Token op = ops.get(i);
+                
+                while(i < ops.size() && ops.get(i).getType() == op.getType()) {
+                    PostAggregator e = b.get(i);
+                    list.add(e);
+                    names.add(e.getName());
+                    i++;
+                }
+                
+                root = new ArithmeticPostAggregator("("+Joiner.on(op.getText()).join(names)+")", op.getText(), list);
+            }
+            
+            return root;
+        }
+    }
+}
+
+
+AND: 'and';
+OR: 'or';
+SUM: 'sum';
+MIN: 'min';
+MAX: 'max';
+COUNT: 'count';
+AS: 'as';
+OPEN: '(';
+CLOSE: ')';
+STAR: '*';
+NOT: '!' ;
+PLUS: '+';
+MINUS: '-';
+DIV: '/';
+COMMA: ',';
+EQ: '=';
+NEQ: '!=';
+MATCH: '~';
+GROUP: 'group';
+
+IDENT : (LETTER)(LETTER | DIGIT | '_')* ;
+QUOTED_STRING : '\'' ( ESC | ~'\'' )*? '\'' ;
+ESC : '\'' '\'';
+
+NUMBER: ('+'|'-')?DIGIT*'.'?DIGIT+(EXPONENT)?;
+EXPONENT: ('e') ('+'|'-')? ('0'..'9')+;
+fragment DIGIT : '0'..'9';
+fragment LETTER : 'a'..'z' | 'A'..'Z';
+
+LINE_COMMENT : '--' .*? '\r'? '\n' -> skip ;
+COMMENT      : '/*' .*? '*/' -> skip ;
+WS :  (' '| '\t' | '\r' '\n' | '\n' | '\r')+ -> skip;
+
+
+
+query
+    : select_stmt where_stmt (groupby_stmt)?
+    ;
+
+select_stmt
+    : 'select' e+=aliasedExpression (',' e+=aliasedExpression)* 'from' datasource {
+        for(AliasedExpressionContext a : $e) { 
+            postAggregators.add(a.p);
+            fields.add(a.p.getName());
+        }
+        this.dataSourceName = $datasource.text;
+    }
+    ;
+
+where_stmt
+    : 'where' f=timeAndDimFilter {
+        if($f.filter != null) this.filter = $f.filter;
+        this.intervals = Lists.newArrayList($f.interval);
+    }
+    ;
+
+groupby_stmt
+    : GROUP 'by' groupByExpression ( COMMA! groupByExpression )*
+    ;
+
+groupByExpression
+    : gran=granularityFn {this.granularity = $gran.granularity;}
+    | dim=IDENT { this.groupByDimensions.put($dim.text, new DefaultDimensionSpec($dim.text, $dim.text)); }
+    ;
+
+datasource
+    : IDENT 
+    ;
+
+aliasedExpression returns [PostAggregator p]
+    : expression ( AS^ name=IDENT )? {
+        if($name != null) {
+            postAggregators.add($expression.p);
+            $p = new FieldAccessPostAggregator($name.text, $expression.p.getName());
+        }
+        else $p = $expression.p;
+    }
+    ;
+
+expression returns [PostAggregator p]
+    : additiveExpression { $p = $additiveExpression.p; }
+    ;
+
+additiveExpression returns [PostAggregator p]
+    : a=multiplyExpression (( ops+=PLUS^ | ops+=MINUS^ ) b+=multiplyExpression)* {
+        List<PostAggregator> rhs = new LinkedList<PostAggregator>();
+        for(MultiplyExpressionContext e : $b) rhs.add(e.p);
+        $p = evalArithmeticPostAggregator($a.p, $ops, rhs);
+    }
+    ;
+
+multiplyExpression returns [PostAggregator p]
+    : a=unaryExpression ((ops+= STAR | ops+=DIV ) b+=unaryExpression)* {
+        List<PostAggregator> rhs = new LinkedList<PostAggregator>();
+        for(UnaryExpressionContext e : $b) rhs.add(e.p);
+        $p = evalArithmeticPostAggregator($a.p, $ops, rhs);
+    }
+    ;
+
+unaryExpression returns [PostAggregator p]
+    : MINUS e=unaryExpression {
+        $p = new ArithmeticPostAggregator(
+            "-"+$e.p.getName(),
+            "*",
+            Lists.newArrayList($e.p, new ConstantPostAggregator("-1", -1.0))
+        );
+    }
+    | PLUS e=unaryExpression { $p = $e.p; }
+    | primaryExpression { $p = $primaryExpression.p; }
+    ;
+
+primaryExpression returns [PostAggregator p]
+    : constant { $p = $constant.c; }
+    | aggregate {
+        aggregators.put($aggregate.agg.getName(), $aggregate.agg);
+        $p = new FieldAccessPostAggregator($aggregate.agg.getName(), $aggregate.agg.getName());
+    }
+    | OPEN! e=expression CLOSE! { $p = $e.p; }
+    ;
+
+aggregate returns [AggregatorFactory agg]
+    : fn=( SUM^ | MIN^ | MAX^ ) OPEN! name=(IDENT|COUNT) CLOSE! { $agg = evalAgg($name.text, $fn.type); }
+      | fn=COUNT OPEN! STAR CLOSE! { $agg = evalAgg("count(*)", $fn.type); }
+    ;
+
+constant returns [ConstantPostAggregator c]
+    : value=NUMBER  { double v = Double.parseDouble($value.text); $c = new ConstantPostAggregator(Double.toString(v), v); }
+    ;
+
+/* time filters must be top level filters */
+timeAndDimFilter returns [DimFilter filter, org.joda.time.Interval interval]
+    : (f1=dimFilter AND)? t=timeFilter (AND f2=dimFilter)?  {
+        if($f1.ctx != null || $f2.ctx != null) {
+            if($f1.ctx != null && $f2.ctx != null) {
+                $filter = new AndDimFilter(Lists.newArrayList($f1.filter, $f2.filter));
+            } else if($f1.ctx != null) {
+                $filter = $f1.filter;
+            } else {
+                $filter = $f2.filter;
+            }
+        }
+        $interval = $t.interval;
+    }
+    ;
+
+dimFilter returns [DimFilter filter]
+    : e=orDimFilter { $filter = $e.filter; }
+    ;
+
+orDimFilter returns [DimFilter filter]
+    : a=andDimFilter (OR^ b+=andDimFilter)* {
+        if($b.isEmpty()) $filter = $a.filter;
+        else {
+            List<DimFilter> rest = new ArrayList<DimFilter>();
+            for(AndDimFilterContext e : $b) rest.add(e.filter);
+            $filter = new OrDimFilter(Lists.asList($a.filter, rest.toArray(new DimFilter[]{})));
+        }
+    }
+    ;
+
+andDimFilter returns [DimFilter filter]
+    : a=primaryDimFilter (AND^ b+=primaryDimFilter)* {
+        if($b.isEmpty()) $filter = $a.filter;
+        else {
+            List<DimFilter> rest = new ArrayList<DimFilter>();
+            for(PrimaryDimFilterContext e : $b) rest.add(e.filter);
+            $filter = new AndDimFilter(Lists.asList($a.filter, rest.toArray(new DimFilter[]{})));
+        }
+    }
+    ;
+
+primaryDimFilter returns [DimFilter filter]
+    : e=selectorDimFilter { $filter = $e.filter; }
+    | l=inListDimFilter   { $filter = $l.filter; }
+    | NOT f=dimFilter     { $filter = new NotDimFilter($f.filter); }
+    | OPEN! f=dimFilter CLOSE! { $filter = $f.filter; }
+    ;
+
+selectorDimFilter returns [DimFilter filter]
+    : dimension=IDENT op=(EQ|NEQ|MATCH) value=QUOTED_STRING {
+        String dim = $dimension.text;
+        String val = unescape($value.text);
+        switch($op.type) {
+            case(EQ): $filter = new SelectorDimFilter(dim, val); break;
+            case(NEQ): $filter = new NotDimFilter(new SelectorDimFilter(dim, val)); break;
+            case(MATCH): $filter = new RegexDimFilter(dim, val); break;
+        }
+    }
+    ;
+
+inListDimFilter returns [DimFilter filter]
+    : dimension=IDENT 'in' (OPEN! ( (list+=QUOTED_STRING (COMMA! list+=QUOTED_STRING)*) ) CLOSE!) {
+        List<DimFilter> filterList = new LinkedList<DimFilter>();
+        for(Token e : $list) filterList.add(new SelectorDimFilter($dimension.text, unescape(e.getText())));
+        $filter = new OrDimFilter(filterList);
+    }
+    ;
+
+timeFilter returns [org.joda.time.Interval interval, QueryGranularity granularity]
+    : 'timestamp' 'between' s=timestamp AND e=timestamp {
+        $interval = new org.joda.time.Interval($s.t, $e.t);
+    }
+    ;
+
+granularityFn returns [QueryGranularity granularity]
+    : 'granularity' OPEN! 'timestamp' ',' str=QUOTED_STRING CLOSE! {
+        String granStr = unescape($str.text);
+        try {
+            $granularity = QueryGranularity.fromString(granStr);
+        } catch(IllegalArgumentException e) {
+            $granularity = new PeriodGranularity(new Period(granStr), null, null);
+        }
+    }
+    ;
+
+timestamp returns [DateTime t]
+    : NUMBER {
+        String str = $NUMBER.text.trim();
+        try {
+            $t = new DateTime(NumberFormat.getInstance().parse(str));
+        }
+        catch(ParseException e) {
+            throw new IllegalArgumentException("Unable to parse number [" + str + "]");
+        }
+    }
+    | QUOTED_STRING { $t = new DateTime(unescape($QUOTED_STRING.text)); }
+    ;
--- a/client/src/main/java/com/metamx/druid/sql/SQLRunner.java
+++ b/client/src/main/java/com/metamx/druid/sql/SQLRunner.java
@ -0,0 +1,209 @@
+package com.metamx.druid.sql;
+
+import com.fasterxml.jackson.core.type.TypeReference;
+import com.fasterxml.jackson.databind.ObjectMapper;
+import com.fasterxml.jackson.databind.ObjectWriter;
+import com.google.common.base.Function;
+import com.google.common.base.Joiner;
+import com.google.common.collect.Iterables;
+import com.google.common.collect.Lists;
+import com.google.common.io.Closeables;
+import com.metamx.druid.Druids;
+import com.metamx.druid.Query;
+import com.metamx.druid.aggregation.AggregatorFactory;
+import com.metamx.druid.input.Row;
+import com.metamx.druid.jackson.DefaultObjectMapper;
+import com.metamx.druid.query.dimension.DimensionSpec;
+import com.metamx.druid.query.group.GroupByQuery;
+import com.metamx.druid.result.Result;
+import com.metamx.druid.result.TimeseriesResultValue;
+import com.metamx.druid.sql.antlr4.DruidSQLLexer;
+import com.metamx.druid.sql.antlr4.DruidSQLParser;
+import org.antlr.v4.runtime.ANTLRInputStream;
+import org.antlr.v4.runtime.CharStream;
+import org.antlr.v4.runtime.CommonTokenStream;
+import org.antlr.v4.runtime.ConsoleErrorListener;
+import org.antlr.v4.runtime.TokenStream;
+import org.apache.commons.cli.CommandLine;
+import org.apache.commons.cli.GnuParser;
+import org.apache.commons.cli.HelpFormatter;
+import org.apache.commons.cli.Options;
+import org.apache.commons.httpclient.HttpClient;
+import org.apache.commons.httpclient.methods.PostMethod;
+import org.apache.commons.httpclient.methods.StringRequestEntity;
+
+import javax.annotation.Nullable;
+import java.io.BufferedReader;
+import java.io.InputStreamReader;
+import java.util.ArrayList;
+import java.util.List;
+
+public class SQLRunner
+{
+  private static final String STATEMENT = "select count(*), (1 - count(*) / sum(count)) * 100 as ratio from wikipedia where"
+                                          + " timestamp between '2013-02-01' and '2013-02-14'"
+                                          + " and (namespace = 'article' or page ~ 'Talk:.*')"
+                                          + " and language in ( 'en', 'fr' ) "
+                                          + " and user ~ '(?i)^david.*'"
+                                          + " group by granularity(timestamp, 'day'), language";
+
+  public static void main(String[] args) throws Exception
+  {
+
+    Options options = new Options();
+    options.addOption("h", "help", false, "help");
+    options.addOption("v", false, "verbose");
+    options.addOption("e", "host", true, "endpoint [hostname:port]");
+
+    CommandLine cmd = new GnuParser().parse(options, args);
+
+    if(cmd.hasOption("h")) {
+      HelpFormatter formatter = new HelpFormatter();
+      formatter.printHelp("SQLRunner", options);
+      System.exit(2);
+    }
+
+    String hostname = cmd.getOptionValue("e", "localhost:8080");
+    String sql = cmd.getArgs().length > 0 ? cmd.getArgs()[0] : STATEMENT;
+
+    ObjectMapper objectMapper = new DefaultObjectMapper();
+    ObjectWriter jsonWriter = objectMapper.writerWithDefaultPrettyPrinter();
+
+    CharStream stream = new ANTLRInputStream(sql);
+    DruidSQLLexer lexer = new DruidSQLLexer(stream);
+    TokenStream tokenStream = new CommonTokenStream(lexer);
+    DruidSQLParser parser = new DruidSQLParser(tokenStream);
+    lexer.removeErrorListeners();
+    parser.removeErrorListeners();
+
+    lexer.addErrorListener(ConsoleErrorListener.INSTANCE);
+    parser.addErrorListener(ConsoleErrorListener.INSTANCE);
+
+    try {
+      DruidSQLParser.QueryContext queryContext = parser.query();
+      if(parser.getNumberOfSyntaxErrors() > 0) throw new IllegalStateException();
+//      parser.setBuildParseTree(true);
+//      System.err.println(q.toStringTree(parser));
+    } catch(Exception e) {
+      String msg = e.getMessage();
+      if(msg != null) System.err.println(e);
+      System.exit(1);
+    }
+
+    final Query query;
+    final TypeReference typeRef;
+    boolean groupBy = false;
+    if(parser.groupByDimensions.isEmpty()) {
+      query = Druids.newTimeseriesQueryBuilder()
+                  .dataSource(parser.getDataSource())
+                  .aggregators(new ArrayList<AggregatorFactory>(parser.aggregators.values()))
+                  .postAggregators(parser.postAggregators)
+                  .intervals(parser.intervals)
+                  .granularity(parser.granularity)
+                  .filters(parser.filter)
+                  .build();
+
+      typeRef = new TypeReference<List<Result<TimeseriesResultValue>>>(){};
+    } else {
+      query = GroupByQuery.builder()
+              .setDataSource(parser.getDataSource())
+              .setAggregatorSpecs(new ArrayList<AggregatorFactory>(parser.aggregators.values()))
+              .setPostAggregatorSpecs(parser.postAggregators)
+              .setInterval(parser.intervals)
+              .setGranularity(parser.granularity)
+              .setDimFilter(parser.filter)
+              .setDimensions(new ArrayList<DimensionSpec>(parser.groupByDimensions.values()))
+              .build();
+
+      typeRef = new TypeReference<List<Row>>(){};
+      groupBy = true;
+    }
+
+    String queryStr = jsonWriter.writeValueAsString(query);
+    if(cmd.hasOption("v")) System.err.println(queryStr);
+
+    PostMethod req = new PostMethod("http://" + hostname + "/druid/v2/?pretty");
+    req.setRequestEntity(new StringRequestEntity(queryStr, "application/json", "utf-8"));
+    new HttpClient().executeMethod(req);
+
+    BufferedReader stdInput = new BufferedReader(new
+                     InputStreamReader(req.getResponseBodyAsStream()));
+
+    Object res = objectMapper.readValue(stdInput, typeRef);
+
+    Joiner tabJoiner = Joiner.on("\t");
+
+    if(groupBy) {
+      List<Row> rows = (List<Row>)res;
+      Iterable<String> dimensions = Iterables.transform(parser.groupByDimensions.values(), new Function<DimensionSpec, String>()
+                        {
+                          @Override
+                          public String apply(@Nullable DimensionSpec input)
+                          {
+                            return input.getOutputName();
+                          }
+                        });
+
+      System.out.println(tabJoiner.join(Iterables.concat(
+                Lists.newArrayList("timestamp"),
+                dimensions,
+                parser.fields
+            )));
+      for(final Row r : rows) {
+        System.out.println(
+            tabJoiner.join(
+              Iterables.concat(
+                  Lists.newArrayList(parser.granularity.toDateTime(r.getTimestampFromEpoch())),
+                  Iterables.transform(
+                      parser.groupByDimensions.values(), new Function<DimensionSpec, String>()
+                  {
+                    @Override
+                    public String apply(@Nullable DimensionSpec input)
+                    {
+                      return Joiner.on(",").join(r.getDimension(input.getOutputName()));
+                    }
+                  }),
+                  Iterables.transform(parser.fields, new Function<String, Object>()
+                  {
+                    @Override
+                    public Object apply(@Nullable String input)
+                    {
+                      return r.getFloatMetric(input);
+                    }
+                  })
+              )
+          )
+        );
+      }
+    }
+    else {
+      List<Result<TimeseriesResultValue>> rows = (List<Result<TimeseriesResultValue>>)res;
+      System.out.println(tabJoiner.join(Iterables.concat(
+          Lists.newArrayList("timestamp"),
+          parser.fields
+      )));
+      for(final Result<TimeseriesResultValue> r : rows) {
+        System.out.println(
+            tabJoiner.join(
+              Iterables.concat(
+                Lists.newArrayList(r.getTimestamp()),
+                Lists.transform(
+                  parser.fields,
+                  new Function<String, Object>()
+                  {
+                    @Override
+                    public Object apply(@Nullable String input)
+                    {
+                      return r.getValue().getMetric(input);
+                    }
+                  }
+                )
+              )
+          )
+        );
+      }
+    }
+
+    Closeables.closeQuietly(stdInput);
+  }
+}
--- a/common/pom.xml
+++ b/common/pom.xml
@ -144,7 +144,7 @@
                        </goals>
                    </execution>
                </executions>
-            </plugin>
+              </plugin>
        </plugins>
    </build>
 </project>
--- a/pom.xml
+++ b/pom.xml
@ -288,7 +288,21 @@
                <artifactId>spymemcached</artifactId>
                <version>2.8.4</version>
            </dependency>
-
+            <dependency>
+                <groupId>org.antlr</groupId>
+                <artifactId>antlr4-runtime</artifactId>
+                <version>4.0</version>
+            </dependency>
+            <dependency>
+                <groupId>org.antlr</groupId>
+                <artifactId>antlr4-master</artifactId>
+                <version>4.0</version>
+            </dependency>
+            <dependency>
+                <groupId>commons-cli</groupId>
+                <artifactId>commons-cli</artifactId>
+                <version>1.2</version>
+            </dependency>
            <!-- Test Scope -->
            <dependency>
                <groupId>com.metamx</groupId>
@ -380,6 +394,11 @@
                    <artifactId>maven-scala-plugin</artifactId>
                    <version>2.15.2</version>
                </plugin>
+                <plugin>
+                    <groupId>org.antlr</groupId>
+                    <artifactId>antlr4-maven-plugin</artifactId>
+                    <version>4.0</version>
+                </plugin>
            </plugins>
        </pluginManagement>
    </build>