LUCENE-2215: add IndexSearcher.searchAfter

git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1173423 13f79535-47bb-0310-9956-ffa450edef68
2011-09-20 23:26:09 +00:00 · 2011-09-20 23:26:09 +00:00 · e182c59b9d
parent 0fd96b2526
commit e182c59b9d
7 changed files with 299 additions and 16 deletions
--- a/lucene/CHANGES.txt
+++ b/lucene/CHANGES.txt
@ -532,6 +532,10 @@ New features
  components between all fields, and PerFieldReuseStrategy which shares per field.
  (Chris Male)
 * LUCENE-2215: Added IndexSearcher.searchAfter which returns results after a specified
  ScoreDoc (e.g. last document on the previous page) to support deep paging use cases.
  (Aaron McCurry, Grant Ingersoll, Robert Muir) 
 Optimizations
 * LUCENE-2588: Don't store unnecessary suffixes when writing the terms
--- a/lucene/src/java/org/apache/lucene/search/IndexSearcher.java
+++ b/lucene/src/java/org/apache/lucene/search/IndexSearcher.java
@ -275,6 +275,34 @@ public class IndexSearcher implements Closeable {
    }
  }
  /** Finds the top <code>n</code>
   * hits for <code>query</code>, applying <code>filter</code> if non-null,
   * where all results are after a previous result (<code>after</code>).
   * <p>
   * By passing the bottom result from a previous page as <code>after</code>,
   * this method can be used for efficient 'deep-paging' across potentially
   * large result sets.
   *
   * @throws BooleanQuery.TooManyClauses
   */
  public TopDocs searchAfter(ScoreDoc after, Query query, int n) throws IOException {
    return searchAfter(after, query, null, n);
  }
  /** Finds the top <code>n</code>
   * hits for <code>query</code>, applying <code>filter</code> if non-null,
   * where all results are after a previous result (<code>after</code>).
   * <p>
   * By passing the bottom result from a previous page as <code>after</code>,
   * this method can be used for efficient 'deep-paging' across potentially
   * large result sets.
   *
   * @throws BooleanQuery.TooManyClauses
   */
  public TopDocs searchAfter(ScoreDoc after, Query query, Filter filter, int n) throws IOException {
    return search(createNormalizedWeight(query), filter, after, n);
  }
  /** Finds the top <code>n</code>
   * hits for <code>query</code>.
   *
@ -293,7 +321,7 @@ public class IndexSearcher implements Closeable {
   */
  public TopDocs search(Query query, Filter filter, int n)
    throws IOException {
-    return search(createNormalizedWeight(query), filter, n);
+    return search(createNormalizedWeight(query), filter, null, n);
  }
  /** Lower-level search API.
@ -371,9 +399,9 @@ public class IndexSearcher implements Closeable {
   * {@link IndexSearcher#search(Query,Filter,int)} instead.
   * @throws BooleanQuery.TooManyClauses
   */
-  protected TopDocs search(Weight weight, Filter filter, int nDocs) throws IOException {
+  protected TopDocs search(Weight weight, Filter filter, ScoreDoc after, int nDocs) throws IOException {
    if (executor == null) {
-      return search(leafContexts, weight, filter, nDocs);
+      return search(leafContexts, weight, filter, after, nDocs);
    } else {
      final HitQueue hq = new HitQueue(nDocs, false);
      final Lock lock = new ReentrantLock();
@ -381,7 +409,7 @@ public class IndexSearcher implements Closeable {
      for (int i = 0; i < leafSlices.length; i++) { // search each sub
        runner.submit(
-                      new SearcherCallableNoSort(lock, this, leafSlices[i], weight, filter, nDocs, hq));
+                      new SearcherCallableNoSort(lock, this, leafSlices[i], weight, filter, after, nDocs, hq));
      }
      int totalHits = 0;
@ -408,14 +436,14 @@ public class IndexSearcher implements Closeable {
   * {@link IndexSearcher#search(Query,Filter,int)} instead.
   * @throws BooleanQuery.TooManyClauses
   */
-  protected TopDocs search(AtomicReaderContext[] leaves, Weight weight, Filter filter, int nDocs) throws IOException {
+  protected TopDocs search(AtomicReaderContext[] leaves, Weight weight, Filter filter, ScoreDoc after, int nDocs) throws IOException {
    // single thread
    int limit = reader.maxDoc();
    if (limit == 0) {
      limit = 1;
    }
    nDocs = Math.min(nDocs, limit);
-    TopScoreDocCollector collector = TopScoreDocCollector.create(nDocs, !weight.scoresDocsOutOfOrder());
+    TopScoreDocCollector collector = TopScoreDocCollector.create(nDocs, after, !weight.scoresDocsOutOfOrder());
    search(leaves, weight, filter, collector);
    return collector.topDocs();
  }
@ -704,23 +732,25 @@ public class IndexSearcher implements Closeable {
    private final IndexSearcher searcher;
    private final Weight weight;
    private final Filter filter;
    private final ScoreDoc after;
    private final int nDocs;
    private final HitQueue hq;
    private final LeafSlice slice;
    public SearcherCallableNoSort(Lock lock, IndexSearcher searcher, LeafSlice slice,  Weight weight,
-        Filter filter, int nDocs, HitQueue hq) {
+        Filter filter, ScoreDoc after, int nDocs, HitQueue hq) {
      this.lock = lock;
      this.searcher = searcher;
      this.weight = weight;
      this.filter = filter;
      this.after = after;
      this.nDocs = nDocs;
      this.hq = hq;
      this.slice = slice;
    }
    public TopDocs call() throws IOException {
-      final TopDocs docs = searcher.search (slice.leaves, weight, filter, nDocs);
+      final TopDocs docs = searcher.search (slice.leaves, weight, filter, after, nDocs);
      final ScoreDoc[] scoreDocs = docs.scoreDocs;
      for (int j = 0; j < scoreDocs.length; j++) { // merge scoreDocs into hq
        final ScoreDoc scoreDoc = scoreDocs[j];
--- a/lucene/src/java/org/apache/lucene/search/TopDocsCollector.java
+++ b/lucene/src/java/org/apache/lucene/search/TopDocsCollector.java
@ -77,12 +77,20 @@ public abstract class TopDocsCollector<T extends ScoreDoc> extends Collector {
    return totalHits;
  }
  /** The number of valid PQ entries */
  protected int topDocsSize() {
    // In case pq was populated with sentinel values, there might be less
    // results than pq.size(). Therefore return all results until either
    // pq.size() or totalHits.
    return totalHits < pq.size() ? totalHits : pq.size();
  }
  /** Returns the top docs that were collected by this collector. */
  public TopDocs topDocs() {
    // In case pq was populated with sentinel values, there might be less
    // results than pq.size(). Therefore return all results until either
    // pq.size() or totalHits.
-    return topDocs(0, totalHits < pq.size() ? totalHits : pq.size());
+    return topDocs(0, topDocsSize());
  }
  /**
@ -101,7 +109,7 @@ public abstract class TopDocsCollector<T extends ScoreDoc> extends Collector {
    // In case pq was populated with sentinel values, there might be less
    // results than pq.size(). Therefore return all results until either
    // pq.size() or totalHits.
-    return topDocs(start, totalHits < pq.size() ? totalHits : pq.size());
+    return topDocs(start, topDocsSize());
  }
  /**
@ -123,10 +131,12 @@ public abstract class TopDocsCollector<T extends ScoreDoc> extends Collector {
    // In case pq was populated with sentinel values, there might be less
    // results than pq.size(). Therefore return all results until either
    // pq.size() or totalHits.
-    int size = totalHits < pq.size() ? totalHits : pq.size();
+    int size = topDocsSize();
    // Don't bother to throw an exception, just return an empty TopDocs in case
    // the parameters are invalid or out of range.
    // TODO: shouldn't we throw IAE if apps give bad params here so they dont
    // have sneaky silent bugs?
    if (start < 0 || start >= size || howMany <= 0) {
      return newTopDocs(null, start);
    }
--- a/lucene/src/java/org/apache/lucene/search/TopScoreDocCollector.java
+++ b/lucene/src/java/org/apache/lucene/search/TopScoreDocCollector.java
@ -68,6 +68,67 @@ public abstract class TopScoreDocCollector extends TopDocsCollector<ScoreDoc> {
    }
  }
  // Assumes docs are scored in order.
  private static class InOrderPagingScoreDocCollector extends TopScoreDocCollector {
    private final ScoreDoc after;
    // this is always after.doc - docBase, to save an add when score == after.score
    private int afterDoc;
    private int collectedHits;
    private InOrderPagingScoreDocCollector(ScoreDoc after, int numHits) {
      super(numHits);
      this.after = after;
    }
    @Override
    public void collect(int doc) throws IOException {
      float score = scorer.score();
      // This collector cannot handle these scores:
      assert score != Float.NEGATIVE_INFINITY;
      assert !Float.isNaN(score);
      totalHits++;
      if (score > after.score || (score == after.score && doc <= afterDoc)) {
        // hit was collected on a previous page
        return;
      }
      if (score <= pqTop.score) {
        // Since docs are returned in-order (i.e., increasing doc Id), a document
        // with equal score to pqTop.score cannot compete since HitQueue favors
        // documents with lower doc Ids. Therefore reject those docs too.
        return;
      }
      collectedHits++;
      pqTop.doc = doc + docBase;
      pqTop.score = score;
      pqTop = pq.updateTop();
    }
    @Override
    public boolean acceptsDocsOutOfOrder() {
      return false;
    }
    @Override
    public void setNextReader(AtomicReaderContext context) {
      super.setNextReader(context);
      afterDoc = after.doc - docBase;
    }
    @Override
    protected int topDocsSize() {
      return collectedHits < pq.size() ? collectedHits : pq.size();
    }
    @Override
    protected TopDocs newTopDocs(ScoreDoc[] results, int start) {
      return results == null ? new TopDocs(totalHits, new ScoreDoc[0], Float.NaN) : new TopDocs(totalHits, results);
    }
  }
  // Assumes docs are scored out of order.
  private static class OutOfOrderTopScoreDocCollector extends TopScoreDocCollector {
    private OutOfOrderTopScoreDocCollector(int numHits) {
@ -102,6 +163,67 @@ public abstract class TopScoreDocCollector extends TopDocsCollector<ScoreDoc> {
    }
  }
  // Assumes docs are scored out of order.
  private static class OutOfOrderPagingScoreDocCollector extends TopScoreDocCollector {
    private final ScoreDoc after;
    // this is always after.doc - docBase, to save an add when score == after.score
    private int afterDoc;
    private int collectedHits;
    private OutOfOrderPagingScoreDocCollector(ScoreDoc after, int numHits) {
      super(numHits);
      this.after = after;
    }
    @Override
    public void collect(int doc) throws IOException {
      float score = scorer.score();
      // This collector cannot handle NaN
      assert !Float.isNaN(score);
      totalHits++;
      if (score > after.score || (score == after.score && doc <= afterDoc)) {
        // hit was collected on a previous page
        return;
      }
      if (score < pqTop.score) {
        // Doesn't compete w/ bottom entry in queue
        return;
      }
      doc += docBase;
      if (score == pqTop.score && doc > pqTop.doc) {
        // Break tie in score by doc ID:
        return;
      }
      collectedHits++;
      pqTop.doc = doc;
      pqTop.score = score;
      pqTop = pq.updateTop();
    }
    @Override
    public boolean acceptsDocsOutOfOrder() {
      return true;
    }
    @Override
    public void setNextReader(AtomicReaderContext context) {
      super.setNextReader(context);
      afterDoc = after.doc - docBase;
    }
    @Override
    protected int topDocsSize() {
      return collectedHits < pq.size() ? collectedHits : pq.size();
    }
    @Override
    protected TopDocs newTopDocs(ScoreDoc[] results, int start) {
      return results == null ? new TopDocs(totalHits, new ScoreDoc[0], Float.NaN) : new TopDocs(totalHits, results);
    }
  }
  /**
   * Creates a new {@link TopScoreDocCollector} given the number of hits to
   * collect and whether documents are scored in order by the input
@ -113,15 +235,33 @@ public abstract class TopScoreDocCollector extends TopDocsCollector<ScoreDoc> {
   * objects.
   */
  public static TopScoreDocCollector create(int numHits, boolean docsScoredInOrder) {
    return create(numHits, null, docsScoredInOrder);
  }
  /**
   * Creates a new {@link TopScoreDocCollector} given the number of hits to
   * collect, the bottom of the previous page, and whether documents are scored in order by the input
   * {@link Scorer} to {@link #setScorer(Scorer)}.
   *
   * <p><b>NOTE</b>: The instances returned by this method
   * pre-allocate a full array of length
   * <code>numHits</code>, and fill the array with sentinel
   * objects.
   */
  public static TopScoreDocCollector create(int numHits, ScoreDoc after, boolean docsScoredInOrder) {
    if (numHits <= 0) {
      throw new IllegalArgumentException("numHits must be > 0; please use TotalHitCountCollector if you just need the total hit count");
    }
    if (docsScoredInOrder) {
-      return new InOrderTopScoreDocCollector(numHits);
+      return after == null 
        ? new InOrderTopScoreDocCollector(numHits) 
        : new InOrderPagingScoreDocCollector(after, numHits);
    } else {
-      return new OutOfOrderTopScoreDocCollector(numHits);
+      return after == null
        ? new OutOfOrderTopScoreDocCollector(numHits)
        : new OutOfOrderPagingScoreDocCollector(after, numHits);
    }
  }
--- a/lucene/src/test/org/apache/lucene/search/TestSearchAfter.java
+++ b/lucene/src/test/org/apache/lucene/search/TestSearchAfter.java
@ -0,0 +1,99 @@
 package org.apache.lucene.search;
 /**
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
 import org.apache.lucene.document.Document;
 import org.apache.lucene.document.StringField;
 import org.apache.lucene.index.IndexReader;
 import org.apache.lucene.index.RandomIndexWriter;
 import org.apache.lucene.index.Term;
 import org.apache.lucene.store.Directory;
 import org.apache.lucene.util.English;
 import org.apache.lucene.util.LuceneTestCase;
 import org.apache.lucene.util._TestUtil;
 /**
 * Tests IndexSearcher's searchAfter() method
 */
 public class TestSearchAfter extends LuceneTestCase {
  private Directory dir;
  private IndexReader reader;
  private IndexSearcher searcher;
  @Override
  public void setUp() throws Exception {
    super.setUp();
    dir = newDirectory();
    RandomIndexWriter iw = new RandomIndexWriter(random, dir);
    int numDocs = atLeast(200);
    for (int i = 0; i < numDocs; i++) {
      Document document = new Document();
      document.add(newField("english", English.intToEnglish(i), StringField.TYPE_UNSTORED));
      document.add(newField("oddeven", (i % 2 == 0) ? "even" : "odd", StringField.TYPE_UNSTORED));
      iw.addDocument(document);
    }
    reader = iw.getReader();
    iw.close();
    searcher = newSearcher(reader);
  }
  @Override
  public void tearDown() throws Exception {
    searcher.close();
    reader.close();
    dir.close();
    super.tearDown();
  }
  public void testQueries() throws Exception {
    Filter odd = new QueryWrapperFilter(new TermQuery(new Term("oddeven", "odd")));
    assertQuery(new MatchAllDocsQuery(), null);
    assertQuery(new TermQuery(new Term("english", "one")), null);
    assertQuery(new MatchAllDocsQuery(), odd);
    assertQuery(new TermQuery(new Term("english", "four")), odd);
    BooleanQuery bq = new BooleanQuery();
    bq.add(new TermQuery(new Term("english", "one")), BooleanClause.Occur.SHOULD);
    bq.add(new TermQuery(new Term("oddeven", "even")), BooleanClause.Occur.SHOULD);
    assertQuery(bq, null);
  }
  void assertQuery(Query query, Filter filter) throws Exception {
    TopDocs all = searcher.search(query, filter, searcher.maxDoc());
    int pageSize = _TestUtil.nextInt(random, 1, searcher.maxDoc()*2);
    int pageStart = 0;
    ScoreDoc lastBottom = null;
    while (pageStart < all.totalHits) {
      TopDocs paged = searcher.searchAfter(lastBottom, query, filter, pageSize);
      if (paged.scoreDocs.length == 0) {
        break;
      }
      assertPage(pageStart, all, paged);
      pageStart += paged.scoreDocs.length;
      lastBottom = paged.scoreDocs[paged.scoreDocs.length - 1];
    }
    assertEquals(all.scoreDocs.length, pageStart);
  }
  static void assertPage(int pageStart, TopDocs all, TopDocs paged) {
    assertEquals(all.totalHits, paged.totalHits);
    for (int i = 0; i < paged.scoreDocs.length; i++) {
      assertEquals(all.scoreDocs[pageStart + i].doc, paged.scoreDocs[i].doc);
      assertEquals(all.scoreDocs[pageStart + i].score, paged.scoreDocs[i].score, 0f);
    }
  }
 }
--- a/lucene/src/test/org/apache/lucene/search/TestTopDocsMerge.java
+++ b/lucene/src/test/org/apache/lucene/search/TestTopDocsMerge.java
@ -48,7 +48,7 @@ public class TestTopDocsMerge extends LuceneTestCase {
    }
    public TopDocs search(Weight weight, int topN) throws IOException {
-      return search(ctx, weight, null, topN);
+      return search(ctx, weight, null, null, topN);
    }
    @Override
--- a/modules/grouping/src/test/org/apache/lucene/search/grouping/TestGrouping.java
+++ b/modules/grouping/src/test/org/apache/lucene/search/grouping/TestGrouping.java
@ -1034,7 +1034,7 @@ public class TestGrouping extends LuceneTestCase {
    }
    public TopDocs search(Weight weight, int topN) throws IOException {
-      return search(ctx, weight, null, topN);
+      return search(ctx, weight, null, null, topN);
    }
    @Override