LUCENE-8025: Use totalTermFreq=sumDocFreq when scoring DOCS_ONLY fields

2017-11-01 19:31:24 -04:00 · 2017-11-01 19:31:24 -04:00 · 7495a9d75b
parent 6eea7f70a0
commit 7495a9d75b
3 changed files with 30 additions and 20 deletions
--- a/lucene/CHANGES.txt
+++ b/lucene/CHANGES.txt
@ -36,6 +36,11 @@ Bug Fixes
  refreshes or commits, and high indexing thread counts, do not
  overflow an int (Mykhailo Demianenko via Mike McCandless)
 * LUCENE-8025: Use totalTermFreq=sumDocFreq when scoring DOCS_ONLY fields
  that omit term frequency information, as it is equivalent in that case.
  Previously bogus numbers were used, and many similarities would
  completely degrade. (Robert Muir, Adrien Grand)
 Optimizations
 * LUCENE-8018: Smaller FieldInfos memory footprint by not retaining unnecessary
--- a/lucene/core/src/java/org/apache/lucene/search/similarities/BM25Similarity.java
+++ b/lucene/core/src/java/org/apache/lucene/search/similarities/BM25Similarity.java
@ -83,17 +83,21 @@ public class BM25Similarity extends Similarity {
    return 1;
  }
-  /** The default implementation computes the average as <code>sumTotalTermFreq / docCount</code>,
+  /** The default implementation computes the average as <code>sumTotalTermFreq / docCount</code> */
   * or returns <code>1</code> if the index does not store sumTotalTermFreq:
   * any field that omits frequency information). */
  protected float avgFieldLength(CollectionStatistics collectionStats) {
-    final long sumTotalTermFreq = collectionStats.sumTotalTermFreq();
+    final long sumTotalTermFreq;
-    if (sumTotalTermFreq <= 0) {
+    if (collectionStats.sumTotalTermFreq() == -1) {
-      return 1f;       // field does not exist, or stat is unsupported
+      // frequencies are omitted (tf=1), its # of postings
      if (collectionStats.sumDocFreq() == -1) {
        // theoretical case only: remove!
        return 1f;
      }
      sumTotalTermFreq = collectionStats.sumDocFreq();
    } else {
-      final long docCount = collectionStats.docCount() == -1 ? collectionStats.maxDoc() : collectionStats.docCount();
+      sumTotalTermFreq = collectionStats.sumTotalTermFreq();
      return (float) (sumTotalTermFreq / (double) docCount);
    }
    final long docCount = collectionStats.docCount() == -1 ? collectionStats.maxDoc() : collectionStats.docCount();
    return (float) (sumTotalTermFreq / (double) docCount);
  }
  /** 
--- a/lucene/core/src/java/org/apache/lucene/search/similarities/SimilarityBase.java
+++ b/lucene/core/src/java/org/apache/lucene/search/similarities/SimilarityBase.java
@ -107,7 +107,7 @@ public abstract class SimilarityBase extends Similarity {
    long docFreq = termStats.docFreq();
    long totalTermFreq = termStats.totalTermFreq();
-    // codec does not supply totalTermFreq: substitute docFreq
+    // frequencies are omitted, all postings have tf=1, so totalTermFreq = docFreq
    if (totalTermFreq == -1) {
      totalTermFreq = docFreq;
    }
@ -115,18 +115,19 @@ public abstract class SimilarityBase extends Similarity {
    final long numberOfFieldTokens;
    final double avgFieldLength;
-    long sumTotalTermFreq = collectionStats.sumTotalTermFreq();
+    if (collectionStats.sumTotalTermFreq() == -1) {
-
+      // frequencies are omitted, so sumTotalTermFreq = # postings
-    if (sumTotalTermFreq <= 0) {
+      if (collectionStats.sumDocFreq() == -1) {
-      // field does not exist;
+        // theoretical case only: remove!
-      // We have to provide something if codec doesnt supply these measures,
+        numberOfFieldTokens = docFreq;
-      // or if someone omitted frequencies for the field... negative values cause
+        avgFieldLength = 1f;
-      // NaN/Inf for some scorers.
+      } else {
-      numberOfFieldTokens = docFreq;
+        numberOfFieldTokens = collectionStats.sumDocFreq();
-      avgFieldLength = 1;
+        avgFieldLength = (float) (collectionStats.sumDocFreq() / (double)numberOfDocuments);
      }
    } else {
-      numberOfFieldTokens = sumTotalTermFreq;
+      numberOfFieldTokens = collectionStats.sumTotalTermFreq();
-      avgFieldLength = (float)numberOfFieldTokens / numberOfDocuments;
+      avgFieldLength = (float) (collectionStats.sumTotalTermFreq() / (double)numberOfDocuments);
    }
    // TODO: add sumDocFreq for field (numberOfFieldPostings)