SOLR-1860: expose these analyzers stoplists as .txt like the others

git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@986612 13f79535-47bb-0310-9956-ffa450edef68
2010-08-18 09:59:00 +00:00 · 2010-08-18 09:59:00 +00:00 · 1473b59c0e
parent 423ba961a2
commit 1473b59c0e
4 changed files with 332 additions and 7 deletions
--- a/modules/analysis/common/src/java/org/apache/lucene/analysis/br/BrazilianAnalyzer.java
+++ b/modules/analysis/common/src/java/org/apache/lucene/analysis/br/BrazilianAnalyzer.java
@ -20,7 +20,6 @@ package org.apache.lucene.analysis.br;
 import java.io.File;
 import java.io.IOException;
 import java.io.Reader;
-import java.util.Arrays;
 import java.util.Collections;
 import java.util.HashSet;
 import java.util.Map;
@ -80,6 +79,9 @@ public final class BrazilianAnalyzer extends StopwordAnalyzerBase {
      "suas","tal","tambem","teu","teus","toda","todas","todo",
      "todos","tua","tuas","tudo","um","uma","umas","uns"};

+  /** File containing default Brazilian Portuguese stopwords. */
+  public final static String DEFAULT_STOPWORD_FILE = "stopwords.txt";
+  
 	/**
   * Returns an unmodifiable instance of the default stop-words set.
   * @return an unmodifiable instance of the default stop-words set.
@ -89,9 +91,19 @@ public final class BrazilianAnalyzer extends StopwordAnalyzerBase {
  }
  
  private static class DefaultSetHolder {
-    static final Set<?> DEFAULT_STOP_SET = CharArraySet
-        .unmodifiableSet(new CharArraySet(Version.LUCENE_CURRENT, 
-            Arrays.asList(BRAZILIAN_STOP_WORDS), false));
+    static final Set<?> DEFAULT_STOP_SET;
+    
+    static {
+      try {
+        DEFAULT_STOP_SET = CharArraySet.unmodifiableSet(new CharArraySet(
+            Version.LUCENE_CURRENT, WordlistLoader.getWordSet(BrazilianAnalyzer.class, 
+                DEFAULT_STOPWORD_FILE, "#"), false));
+      } catch (IOException ex) {
+        // default set should always be present as it is part of the
+        // distribution (JAR)
+        throw new RuntimeException("Unable to load default stopword set");
+      }
+    }
  }


--- a/modules/analysis/common/src/java/org/apache/lucene/analysis/cz/CzechAnalyzer.java
+++ b/modules/analysis/common/src/java/org/apache/lucene/analysis/cz/CzechAnalyzer.java
@ -31,7 +31,6 @@ import org.apache.lucene.analysis.util.WordlistLoader;
 import org.apache.lucene.util.Version;

 import java.io.*;
-import java.util.Arrays;
 import java.util.Collections;
 import java.util.HashSet;
 import java.util.Set;
@ -84,6 +83,9 @@ public final class CzechAnalyzer extends ReusableAnalyzerBase {
        "jeho\u017e","j\u00ed\u017e","jeliko\u017e","je\u017e","jako\u017e","na\u010de\u017e",
    };
 	
+  /** File containing default Czech stopwords. */
+  public final static String DEFAULT_STOPWORD_FILE = "stopwords.txt";
+  
  /**
   * Returns a set of default Czech-stopwords
   * 
@ -94,8 +96,19 @@ public final class CzechAnalyzer extends ReusableAnalyzerBase {
 	}
 	
 	private static class DefaultSetHolder {
-	  private static final Set<?> DEFAULT_SET = CharArraySet.unmodifiableSet(new CharArraySet(
-	      Version.LUCENE_CURRENT, Arrays.asList(CZECH_STOP_WORDS), false));
+	  private static final Set<?> DEFAULT_SET;
+	  
+	  static {
+	    try {
+	      DEFAULT_SET = CharArraySet.unmodifiableSet(new CharArraySet(
+	          Version.LUCENE_CURRENT, WordlistLoader.getWordSet(CzechAnalyzer.class, 
+	              DEFAULT_STOPWORD_FILE, "#"), false));
+	    } catch (IOException ex) {
+	      // default set should always be present as it is part of the
+	      // distribution (JAR)
+	      throw new RuntimeException("Unable to load default stopword set");
+	    }
+	  }
 	}

 
--- a/modules/analysis/common/src/resources/org/apache/lucene/analysis/br/stopwords.txt
+++ b/modules/analysis/common/src/resources/org/apache/lucene/analysis/br/stopwords.txt
@ -0,0 +1,128 @@
+a
+ainda
+alem
+ambas
+ambos
+antes
+ao
+aonde
+aos
+apos
+aquele
+aqueles
+as
+assim
+com
+como
+contra
+contudo
+cuja
+cujas
+cujo
+cujos
+da
+das
+de
+dela
+dele
+deles
+demais
+depois
+desde
+desta
+deste
+dispoe
+dispoem
+diversa
+diversas
+diversos
+do
+dos
+durante
+e
+ela
+elas
+ele
+eles
+em
+entao
+entre
+essa
+essas
+esse
+esses
+esta
+estas
+este
+estes
+ha
+isso
+isto
+logo
+mais
+mas
+mediante
+menos
+mesma
+mesmas
+mesmo
+mesmos
+na
+nas
+nao
+nas
+nem
+nesse
+neste
+nos
+o
+os
+ou
+outra
+outras
+outro
+outros
+pelas
+pelas
+pelo
+pelos
+perante
+pois
+por
+porque
+portanto
+proprio
+propios
+quais
+qual
+qualquer
+quando
+quanto
+que
+quem
+quer
+se
+seja
+sem
+sendo
+seu
+seus
+sob
+sobre
+sua
+suas
+tal
+tambem
+teu
+teus
+toda
+todas
+todo
+todos
+tua
+tuas
+tudo
+um
+uma
+umas
+uns
--- a/modules/analysis/common/src/resources/org/apache/lucene/analysis/cz/stopwords.txt
+++ b/modules/analysis/common/src/resources/org/apache/lucene/analysis/cz/stopwords.txt
@ -0,0 +1,172 @@
+a
+s
+k
+o
+i
+u
+v
+z
+dnes
+cz
+tímto
+budeš
+budem
+byli
+jseš
+můj
+svým
+ta
+tomto
+tohle
+tuto
+tyto
+jej
+zda
+proč
+máte
+tato
+kam
+tohoto
+kdo
+kteří
+mi
+nám
+tom
+tomuto
+mít
+nic
+proto
+kterou
+byla
+toho
+protože
+asi
+ho
+naši
+napište
+re
+což
+tím
+takže
+svých
+její
+svými
+jste
+aj
+tu
+tedy
+teto
+bylo
+kde
+ke
+pravé
+ji
+nad
+nejsou
+či
+pod
+téma
+mezi
+přes
+ty
+pak
+vám
+ani
+když
+však
+neg
+jsem
+tento
+článku
+články
+aby
+jsme
+před
+pta
+jejich
+byl
+ještě
+až
+bez
+také
+pouze
+první
+vaše
+která
+nás
+nový
+tipy
+pokud
+může
+strana
+jeho
+své
+jiné
+zprávy
+nové
+není
+vás
+jen
+podle
+zde
+už
+být
+více
+bude
+již
+než
+který
+by
+které
+co
+nebo
+ten
+tak
+má
+při
+od
+po
+jsou
+jak
+další
+ale
+si
+se
+ve
+to
+jako
+za
+zpět
+ze
+do
+pro
+je
+na
+atd
+atp
+jakmile
+přičemž
+já
+on
+ona
+ono
+oni
+ony
+my
+vy
+jí
+ji
+mě
+mne
+jemu
+tomu
+těm
+těmu
+němu
+němuž
+jehož
+jíž
+jelikož
+jež
+jakož
+načež