add CursorHolder.isPreAggregated method to allow cursors on pre-aggregated data (#17058) (#17205)

changes: * CursorHolder.isPreAggregated method indicates that a cursor has pre-aggregated data for all AggregatorFactory specified in a CursorBuildSpec. If true, engines should rewrite the query to use AggregatorFactory.getCombiningAggreggator, and column selector factories will provide selectors with the aggregator interediate type for the aggregator factory name * Added groupby, timeseries, and topN support for CursorHolder.isPreAggregated * Added synthetic test since no CursorHolder implementations support isPreAggregated at this point in time Co-authored-by: Clint Wylie <cwylie@apache.org>
2024-10-01 15:33:16 +05:30 · 2024-10-01 15:33:16 +05:30 · 9b192bd5a2
parent ef7c461722
commit 9b192bd5a2
7 changed files with 312 additions and 3 deletions
--- a/processing/src/main/java/org/apache/druid/query/aggregation/AggregatorUtil.java
+++ b/processing/src/main/java/org/apache/druid/query/aggregation/AggregatorUtil.java
@ -454,4 +454,13 @@ public class AggregatorUtil
    }
    return false;
  }
  public static List<AggregatorFactory> getCombiningAggregators(List<AggregatorFactory> aggs)
  {
    List<AggregatorFactory> combining = new ArrayList<>(aggs.size());
    for (AggregatorFactory agg : aggs) {
      combining.add(agg.getCombiningFactory());
    }
    return combining;
  }
 }
--- a/processing/src/main/java/org/apache/druid/query/groupby/GroupingEngine.java
+++ b/processing/src/main/java/org/apache/druid/query/groupby/GroupingEngine.java
@ -61,6 +61,7 @@ import org.apache.druid.query.QueryWatcher;
 import org.apache.druid.query.ResourceLimitExceededException;
 import org.apache.druid.query.ResultMergeQueryRunner;
 import org.apache.druid.query.aggregation.AggregatorFactory;
 import org.apache.druid.query.aggregation.AggregatorUtil;
 import org.apache.druid.query.aggregation.PostAggregator;
 import org.apache.druid.query.context.ResponseContext;
 import org.apache.druid.query.dimension.DefaultDimensionSpec;
@ -508,6 +509,9 @@ public class GroupingEngine
      final CursorBuildSpec buildSpec = makeCursorBuildSpec(query, groupByQueryMetrics);
      final CursorHolder cursorHolder = closer.register(cursorFactory.makeCursorHolder(buildSpec));
      if (cursorHolder.isPreAggregated()) {
        query = query.withAggregatorSpecs(AggregatorUtil.getCombiningAggregators(query.getAggregatorSpecs()));
      }
      final ColumnInspector inspector = query.getVirtualColumns().wrapInspector(cursorFactory);
      // group by specific vectorization check
--- a/processing/src/main/java/org/apache/druid/query/timeseries/TimeseriesQuery.java
+++ b/processing/src/main/java/org/apache/druid/query/timeseries/TimeseriesQuery.java
@ -243,6 +243,11 @@ public class TimeseriesQuery extends BaseQuery<Result<TimeseriesResultValue>>
    return Druids.TimeseriesQueryBuilder.copy(this).filters(dimFilter).build();
  }
  public TimeseriesQuery withAggregatorSpecs(List<AggregatorFactory> aggregatorSpecs)
  {
    return Druids.TimeseriesQueryBuilder.copy(this).aggregators(aggregatorSpecs).build();
  }
  public TimeseriesQuery withPostAggregatorSpecs(final List<PostAggregator> postAggregatorSpecs)
  {
    return Druids.TimeseriesQueryBuilder.copy(this).postAggregators(postAggregatorSpecs).build();
--- a/processing/src/main/java/org/apache/druid/query/timeseries/TimeseriesQueryEngine.java
+++ b/processing/src/main/java/org/apache/druid/query/timeseries/TimeseriesQueryEngine.java
@ -38,6 +38,7 @@ import org.apache.druid.query.Result;
 import org.apache.druid.query.aggregation.Aggregator;
 import org.apache.druid.query.aggregation.AggregatorAdapters;
 import org.apache.druid.query.aggregation.AggregatorFactory;
 import org.apache.druid.query.aggregation.AggregatorUtil;
 import org.apache.druid.query.vector.VectorCursorGranularizer;
 import org.apache.druid.segment.ColumnSelectorFactory;
 import org.apache.druid.segment.Cursor;
@ -86,7 +87,7 @@ public class TimeseriesQueryEngine
   * scoped down to a single interval before calling this method.
   */
  public Sequence<Result<TimeseriesResultValue>> process(
-      final TimeseriesQuery query,
+      TimeseriesQuery query,
      final CursorFactory cursorFactory,
      @Nullable TimeBoundaryInspector timeBoundaryInspector,
      @Nullable final TimeseriesQueryMetrics timeseriesQueryMetrics
@ -102,6 +103,9 @@ public class TimeseriesQueryEngine
    final Granularity gran = query.getGranularity();
    final CursorHolder cursorHolder = cursorFactory.makeCursorHolder(makeCursorBuildSpec(query, timeseriesQueryMetrics));
    if (cursorHolder.isPreAggregated()) {
      query = query.withAggregatorSpecs(AggregatorUtil.getCombiningAggregators(query.getAggregatorSpecs()));
    }
    try {
      final Sequence<Result<TimeseriesResultValue>> result;
--- a/processing/src/main/java/org/apache/druid/query/topn/TopNQueryEngine.java
+++ b/processing/src/main/java/org/apache/druid/query/topn/TopNQueryEngine.java
@ -30,6 +30,7 @@ import org.apache.druid.query.CursorGranularizer;
 import org.apache.druid.query.QueryMetrics;
 import org.apache.druid.query.Result;
 import org.apache.druid.query.aggregation.AggregatorFactory;
 import org.apache.druid.query.aggregation.AggregatorUtil;
 import org.apache.druid.query.extraction.ExtractionFn;
 import org.apache.druid.query.topn.types.TopNColumnAggregatesProcessor;
 import org.apache.druid.query.topn.types.TopNColumnAggregatesProcessorFactory;
@ -73,7 +74,7 @@ public class TopNQueryEngine
   * update {@link TopNResultValue}
   */
  public Sequence<Result<TopNResultValue>> query(
-      final TopNQuery query,
+      TopNQuery query,
      final Segment segment,
      @Nullable final TopNQueryMetrics queryMetrics
  )
@ -87,6 +88,9 @@ public class TopNQueryEngine
    final CursorBuildSpec buildSpec = makeCursorBuildSpec(query, queryMetrics);
    final CursorHolder cursorHolder = cursorFactory.makeCursorHolder(buildSpec);
    if (cursorHolder.isPreAggregated()) {
      query = query.withAggregatorSpecs(AggregatorUtil.getCombiningAggregators(query.getAggregatorSpecs()));
    }
    final Cursor cursor = cursorHolder.asCursor();
    if (cursor == null) {
      return Sequences.withBaggage(Sequences.empty(), cursorHolder);
@ -127,7 +131,6 @@ public class TopNQueryEngine
      return Sequences.withBaggage(Sequences.empty(), cursorHolder);
    }
    if (queryMetrics != null) {
      queryMetrics.cursor(cursor);
    }
--- a/processing/src/main/java/org/apache/druid/segment/CursorHolder.java
+++ b/processing/src/main/java/org/apache/druid/segment/CursorHolder.java
@ -22,6 +22,7 @@ package org.apache.druid.segment;
 import org.apache.druid.java.util.common.UOE;
 import org.apache.druid.query.Order;
 import org.apache.druid.query.OrderBy;
 import org.apache.druid.query.aggregation.AggregatorFactory;
 import org.apache.druid.segment.column.ColumnHolder;
 import org.apache.druid.segment.vector.VectorCursor;
@ -58,6 +59,22 @@ public interface CursorHolder extends Closeable
    return false;
  }
  /**
   * Returns true if the {@link Cursor} or {@link VectorCursor} contains pre-aggregated columns for all
   * {@link AggregatorFactory} specified in {@link CursorBuildSpec#getAggregators()}.
   * <p>
   * If this method returns true, {@link ColumnSelectorFactory} and
   * {@link org.apache.druid.segment.vector.VectorColumnSelectorFactory} created from {@link Cursor} and
   * {@link VectorCursor} respectively will provide selectors for {@link AggregatorFactory#getName()}, and engines
   * should rewrite the query using {@link AggregatorFactory#getCombiningFactory()}, since the values returned from
   * these selectors will be of type {@link AggregatorFactory#getIntermediateType()}, so the cursor becomes a "fold"
   * operation rather than a "build" operation.
   */
  default boolean isPreAggregated()
  {
    return false;
  }
  /**
   * Returns cursor ordering, which may or may not match {@link CursorBuildSpec#getPreferredOrdering()}. If returns
   * an empty list then the cursor has no defined ordering.
--- a/processing/src/test/java/org/apache/druid/segment/CursorHolderPreaggTest.java
+++ b/processing/src/test/java/org/apache/druid/segment/CursorHolderPreaggTest.java
@ -0,0 +1,267 @@
 /*
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *   http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing,
 * software distributed under the License is distributed on an
 * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 * KIND, either express or implied.  See the License for the
 * specific language governing permissions and limitations
 * under the License.
 */
 package org.apache.druid.segment;
 import com.google.common.collect.ImmutableList;
 import org.apache.druid.collections.CloseableDefaultBlockingPool;
 import org.apache.druid.collections.CloseableStupidPool;
 import org.apache.druid.java.util.common.Intervals;
 import org.apache.druid.java.util.common.Pair;
 import org.apache.druid.java.util.common.granularity.Granularities;
 import org.apache.druid.java.util.common.guava.Sequence;
 import org.apache.druid.query.DruidProcessingConfig;
 import org.apache.druid.query.Druids;
 import org.apache.druid.query.IterableRowsCursorHelper;
 import org.apache.druid.query.Result;
 import org.apache.druid.query.aggregation.CountAggregatorFactory;
 import org.apache.druid.query.groupby.GroupByQuery;
 import org.apache.druid.query.groupby.GroupByQueryConfig;
 import org.apache.druid.query.groupby.GroupByResourcesReservationPool;
 import org.apache.druid.query.groupby.GroupingEngine;
 import org.apache.druid.query.groupby.ResultRow;
 import org.apache.druid.query.timeseries.TimeseriesQuery;
 import org.apache.druid.query.timeseries.TimeseriesQueryEngine;
 import org.apache.druid.query.timeseries.TimeseriesResultValue;
 import org.apache.druid.query.topn.TopNQuery;
 import org.apache.druid.query.topn.TopNQueryBuilder;
 import org.apache.druid.query.topn.TopNQueryEngine;
 import org.apache.druid.query.topn.TopNResultValue;
 import org.apache.druid.segment.column.ColumnCapabilities;
 import org.apache.druid.segment.column.ColumnType;
 import org.apache.druid.segment.column.RowSignature;
 import org.apache.druid.testing.InitializedNullHandlingTest;
 import org.apache.druid.timeline.SegmentId;
 import org.apache.druid.utils.CloseableUtils;
 import org.joda.time.Interval;
 import org.junit.Assert;
 import org.junit.Before;
 import org.junit.Rule;
 import org.junit.Test;
 import javax.annotation.Nullable;
 import java.io.Closeable;
 import java.nio.ByteBuffer;
 import java.util.List;
 public class CursorHolderPreaggTest extends InitializedNullHandlingTest
 {
  private GroupingEngine groupingEngine;
  private TopNQueryEngine topNQueryEngine;
  private TimeseriesQueryEngine timeseriesQueryEngine;
  private CursorFactory cursorFactory;
  private Segment segment;
  @Rule
  public final CloserRule closer = new CloserRule(false);
  @Before
  public void setup()
  {
    final CloseableStupidPool<ByteBuffer> pool = closer.closeLater(
        new CloseableStupidPool<>(
            "CursorHolderPreaggTest-bufferPool",
            () -> ByteBuffer.allocate(50000)
        )
    );
    topNQueryEngine = new TopNQueryEngine(pool);
    timeseriesQueryEngine = new TimeseriesQueryEngine(pool);
    groupingEngine = new GroupingEngine(
        new DruidProcessingConfig(),
        GroupByQueryConfig::new,
        pool,
        new GroupByResourcesReservationPool(
            closer.closeLater(
                new CloseableDefaultBlockingPool<>(
                    () -> ByteBuffer.allocate(50000),
                    4
                )
            ),
            new GroupByQueryConfig()
        ),
        TestHelper.makeJsonMapper(),
        TestHelper.makeSmileMapper(),
        (query, future) -> {
        }
    );
    this.cursorFactory = new CursorFactory()
    {
      private final RowSignature rowSignature = RowSignature.builder()
                                                            .add("a", ColumnType.STRING)
                                                            .add("b", ColumnType.STRING)
                                                            .add("cnt", ColumnType.LONG)
                                                            .build();
      private final Pair<Cursor, Closeable> cursorAndCloser = IterableRowsCursorHelper.getCursorFromIterable(
          ImmutableList.of(
              new Object[]{"a", "aa", 5L},
              new Object[]{"a", "aa", 6L},
              new Object[]{"b", "bb", 7L}
          ),
          rowSignature
      );
      @Override
      public CursorHolder makeCursorHolder(CursorBuildSpec spec)
      {
        return new CursorHolder()
        {
          @Nullable
          @Override
          public Cursor asCursor()
          {
            return cursorAndCloser.lhs;
          }
          @Override
          public boolean isPreAggregated()
          {
            return true;
          }
          @Override
          public void close()
          {
            CloseableUtils.closeAndWrapExceptions(cursorAndCloser.rhs);
          }
        };
      }
      @Override
      public RowSignature getRowSignature()
      {
        return rowSignature;
      }
      @Override
      @Nullable
      public ColumnCapabilities getColumnCapabilities(String column)
      {
        return rowSignature.getColumnCapabilities(column);
      }
    };
    segment = new Segment()
    {
      @Override
      public SegmentId getId()
      {
        return SegmentId.dummy("test");
      }
      @Override
      public Interval getDataInterval()
      {
        return Intervals.ETERNITY;
      }
      @Nullable
      @Override
      public QueryableIndex asQueryableIndex()
      {
        return null;
      }
      @Override
      public CursorFactory asCursorFactory()
      {
        return cursorFactory;
      }
      @Override
      public void close()
      {
      }
    };
  }
  @Test
  public void testTopn()
  {
    final TopNQuery topNQuery = new TopNQueryBuilder().dataSource("test")
                                                      .granularity(Granularities.ALL)
                                                      .intervals(ImmutableList.of(Intervals.ETERNITY))
                                                      .dimension("a")
                                                      .aggregators(new CountAggregatorFactory("cnt"))
                                                      .metric("cnt")
                                                      .threshold(10)
                                                      .build();
    Sequence<Result<TopNResultValue>> results = topNQueryEngine.query(
        topNQuery,
        segment,
        null
    );
    List<Result<TopNResultValue>> rows = results.toList();
    Assert.assertEquals(1, rows.size());
    // the cnt column is treated as pre-aggregated, so the values of the rows are summed
    Assert.assertEquals(2, rows.get(0).getValue().getValue().size());
    Assert.assertEquals(11L, rows.get(0).getValue().getValue().get(0).getLongMetric("cnt").longValue());
    Assert.assertEquals(7L, rows.get(0).getValue().getValue().get(1).getLongMetric("cnt").longValue());
  }
  @Test
  public void testGroupBy()
  {
    final GroupByQuery query = GroupByQuery.builder()
                                           .setDataSource("test")
                                           .setGranularity(Granularities.ALL)
                                           .setInterval(Intervals.ETERNITY)
                                           .addDimension("a")
                                           .addDimension("b")
                                           .addAggregator(new CountAggregatorFactory("cnt"))
                                           .build();
    Sequence<ResultRow> results = groupingEngine.process(
        query,
        cursorFactory,
        null,
        null
    );
    List<ResultRow> rows = results.toList();
    Assert.assertEquals(2, rows.size());
    // the cnt column is treated as pre-aggregated, so the values of the rows are summed
    Assert.assertArrayEquals(new Object[]{"a", "aa", 11L}, rows.get(0).getArray());
    Assert.assertArrayEquals(new Object[]{"b", "bb", 7L}, rows.get(1).getArray());
  }
  @Test
  public void testTimeseries()
  {
    TimeseriesQuery timeseriesQuery = Druids.newTimeseriesQueryBuilder()
                                            .dataSource("test")
                                            .intervals(ImmutableList.of(Intervals.ETERNITY))
                                            .granularity(Granularities.ALL)
                                            .aggregators(new CountAggregatorFactory("cnt"))
                                            .build();
    Sequence<Result<TimeseriesResultValue>> results = timeseriesQueryEngine.process(
        timeseriesQuery,
        cursorFactory,
        null,
        null
    );
    List<Result<TimeseriesResultValue>> rows = results.toList();
    Assert.assertEquals(1, rows.size());
    // the cnt column is treated as pre-aggregated, so the values of the rows are summed
    Assert.assertEquals(18L, (long) rows.get(0).getValue().getLongMetric("cnt"));
  }
 }