mirror of https://github.com/apache/lucene.git
SOLR-1860: expose these analyzers stoplists as .txt like the others
git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@986612 13f79535-47bb-0310-9956-ffa450edef68
This commit is contained in:
parent
423ba961a2
commit
1473b59c0e
|
@ -20,7 +20,6 @@ package org.apache.lucene.analysis.br;
|
|||
import java.io.File;
|
||||
import java.io.IOException;
|
||||
import java.io.Reader;
|
||||
import java.util.Arrays;
|
||||
import java.util.Collections;
|
||||
import java.util.HashSet;
|
||||
import java.util.Map;
|
||||
|
@ -80,6 +79,9 @@ public final class BrazilianAnalyzer extends StopwordAnalyzerBase {
|
|||
"suas","tal","tambem","teu","teus","toda","todas","todo",
|
||||
"todos","tua","tuas","tudo","um","uma","umas","uns"};
|
||||
|
||||
/** File containing default Brazilian Portuguese stopwords. */
|
||||
public final static String DEFAULT_STOPWORD_FILE = "stopwords.txt";
|
||||
|
||||
/**
|
||||
* Returns an unmodifiable instance of the default stop-words set.
|
||||
* @return an unmodifiable instance of the default stop-words set.
|
||||
|
@ -89,9 +91,19 @@ public final class BrazilianAnalyzer extends StopwordAnalyzerBase {
|
|||
}
|
||||
|
||||
private static class DefaultSetHolder {
|
||||
static final Set<?> DEFAULT_STOP_SET = CharArraySet
|
||||
.unmodifiableSet(new CharArraySet(Version.LUCENE_CURRENT,
|
||||
Arrays.asList(BRAZILIAN_STOP_WORDS), false));
|
||||
static final Set<?> DEFAULT_STOP_SET;
|
||||
|
||||
static {
|
||||
try {
|
||||
DEFAULT_STOP_SET = CharArraySet.unmodifiableSet(new CharArraySet(
|
||||
Version.LUCENE_CURRENT, WordlistLoader.getWordSet(BrazilianAnalyzer.class,
|
||||
DEFAULT_STOPWORD_FILE, "#"), false));
|
||||
} catch (IOException ex) {
|
||||
// default set should always be present as it is part of the
|
||||
// distribution (JAR)
|
||||
throw new RuntimeException("Unable to load default stopword set");
|
||||
}
|
||||
}
|
||||
}
|
||||
|
||||
|
||||
|
|
|
@ -31,7 +31,6 @@ import org.apache.lucene.analysis.util.WordlistLoader;
|
|||
import org.apache.lucene.util.Version;
|
||||
|
||||
import java.io.*;
|
||||
import java.util.Arrays;
|
||||
import java.util.Collections;
|
||||
import java.util.HashSet;
|
||||
import java.util.Set;
|
||||
|
@ -84,6 +83,9 @@ public final class CzechAnalyzer extends ReusableAnalyzerBase {
|
|||
"jeho\u017e","j\u00ed\u017e","jeliko\u017e","je\u017e","jako\u017e","na\u010de\u017e",
|
||||
};
|
||||
|
||||
/** File containing default Czech stopwords. */
|
||||
public final static String DEFAULT_STOPWORD_FILE = "stopwords.txt";
|
||||
|
||||
/**
|
||||
* Returns a set of default Czech-stopwords
|
||||
*
|
||||
|
@ -94,8 +96,19 @@ public final class CzechAnalyzer extends ReusableAnalyzerBase {
|
|||
}
|
||||
|
||||
private static class DefaultSetHolder {
|
||||
private static final Set<?> DEFAULT_SET = CharArraySet.unmodifiableSet(new CharArraySet(
|
||||
Version.LUCENE_CURRENT, Arrays.asList(CZECH_STOP_WORDS), false));
|
||||
private static final Set<?> DEFAULT_SET;
|
||||
|
||||
static {
|
||||
try {
|
||||
DEFAULT_SET = CharArraySet.unmodifiableSet(new CharArraySet(
|
||||
Version.LUCENE_CURRENT, WordlistLoader.getWordSet(CzechAnalyzer.class,
|
||||
DEFAULT_STOPWORD_FILE, "#"), false));
|
||||
} catch (IOException ex) {
|
||||
// default set should always be present as it is part of the
|
||||
// distribution (JAR)
|
||||
throw new RuntimeException("Unable to load default stopword set");
|
||||
}
|
||||
}
|
||||
}
|
||||
|
||||
|
||||
|
|
|
@ -0,0 +1,128 @@
|
|||
a
|
||||
ainda
|
||||
alem
|
||||
ambas
|
||||
ambos
|
||||
antes
|
||||
ao
|
||||
aonde
|
||||
aos
|
||||
apos
|
||||
aquele
|
||||
aqueles
|
||||
as
|
||||
assim
|
||||
com
|
||||
como
|
||||
contra
|
||||
contudo
|
||||
cuja
|
||||
cujas
|
||||
cujo
|
||||
cujos
|
||||
da
|
||||
das
|
||||
de
|
||||
dela
|
||||
dele
|
||||
deles
|
||||
demais
|
||||
depois
|
||||
desde
|
||||
desta
|
||||
deste
|
||||
dispoe
|
||||
dispoem
|
||||
diversa
|
||||
diversas
|
||||
diversos
|
||||
do
|
||||
dos
|
||||
durante
|
||||
e
|
||||
ela
|
||||
elas
|
||||
ele
|
||||
eles
|
||||
em
|
||||
entao
|
||||
entre
|
||||
essa
|
||||
essas
|
||||
esse
|
||||
esses
|
||||
esta
|
||||
estas
|
||||
este
|
||||
estes
|
||||
ha
|
||||
isso
|
||||
isto
|
||||
logo
|
||||
mais
|
||||
mas
|
||||
mediante
|
||||
menos
|
||||
mesma
|
||||
mesmas
|
||||
mesmo
|
||||
mesmos
|
||||
na
|
||||
nas
|
||||
nao
|
||||
nas
|
||||
nem
|
||||
nesse
|
||||
neste
|
||||
nos
|
||||
o
|
||||
os
|
||||
ou
|
||||
outra
|
||||
outras
|
||||
outro
|
||||
outros
|
||||
pelas
|
||||
pelas
|
||||
pelo
|
||||
pelos
|
||||
perante
|
||||
pois
|
||||
por
|
||||
porque
|
||||
portanto
|
||||
proprio
|
||||
propios
|
||||
quais
|
||||
qual
|
||||
qualquer
|
||||
quando
|
||||
quanto
|
||||
que
|
||||
quem
|
||||
quer
|
||||
se
|
||||
seja
|
||||
sem
|
||||
sendo
|
||||
seu
|
||||
seus
|
||||
sob
|
||||
sobre
|
||||
sua
|
||||
suas
|
||||
tal
|
||||
tambem
|
||||
teu
|
||||
teus
|
||||
toda
|
||||
todas
|
||||
todo
|
||||
todos
|
||||
tua
|
||||
tuas
|
||||
tudo
|
||||
um
|
||||
uma
|
||||
umas
|
||||
uns
|
|
@ -0,0 +1,172 @@
|
|||
a
|
||||
s
|
||||
k
|
||||
o
|
||||
i
|
||||
u
|
||||
v
|
||||
z
|
||||
dnes
|
||||
cz
|
||||
tímto
|
||||
budeš
|
||||
budem
|
||||
byli
|
||||
jseš
|
||||
můj
|
||||
svým
|
||||
ta
|
||||
tomto
|
||||
tohle
|
||||
tuto
|
||||
tyto
|
||||
jej
|
||||
zda
|
||||
proč
|
||||
máte
|
||||
tato
|
||||
kam
|
||||
tohoto
|
||||
kdo
|
||||
kteří
|
||||
mi
|
||||
nám
|
||||
tom
|
||||
tomuto
|
||||
mít
|
||||
nic
|
||||
proto
|
||||
kterou
|
||||
byla
|
||||
toho
|
||||
protože
|
||||
asi
|
||||
ho
|
||||
naši
|
||||
napište
|
||||
re
|
||||
což
|
||||
tím
|
||||
takže
|
||||
svých
|
||||
její
|
||||
svými
|
||||
jste
|
||||
aj
|
||||
tu
|
||||
tedy
|
||||
teto
|
||||
bylo
|
||||
kde
|
||||
ke
|
||||
pravé
|
||||
ji
|
||||
nad
|
||||
nejsou
|
||||
či
|
||||
pod
|
||||
téma
|
||||
mezi
|
||||
přes
|
||||
ty
|
||||
pak
|
||||
vám
|
||||
ani
|
||||
když
|
||||
však
|
||||
neg
|
||||
jsem
|
||||
tento
|
||||
článku
|
||||
články
|
||||
aby
|
||||
jsme
|
||||
před
|
||||
pta
|
||||
jejich
|
||||
byl
|
||||
ještě
|
||||
až
|
||||
bez
|
||||
také
|
||||
pouze
|
||||
první
|
||||
vaše
|
||||
která
|
||||
nás
|
||||
nový
|
||||
tipy
|
||||
pokud
|
||||
může
|
||||
strana
|
||||
jeho
|
||||
své
|
||||
jiné
|
||||
zprávy
|
||||
nové
|
||||
není
|
||||
vás
|
||||
jen
|
||||
podle
|
||||
zde
|
||||
už
|
||||
být
|
||||
více
|
||||
bude
|
||||
již
|
||||
než
|
||||
který
|
||||
by
|
||||
které
|
||||
co
|
||||
nebo
|
||||
ten
|
||||
tak
|
||||
má
|
||||
při
|
||||
od
|
||||
po
|
||||
jsou
|
||||
jak
|
||||
další
|
||||
ale
|
||||
si
|
||||
se
|
||||
ve
|
||||
to
|
||||
jako
|
||||
za
|
||||
zpět
|
||||
ze
|
||||
do
|
||||
pro
|
||||
je
|
||||
na
|
||||
atd
|
||||
atp
|
||||
jakmile
|
||||
přičemž
|
||||
já
|
||||
on
|
||||
ona
|
||||
ono
|
||||
oni
|
||||
ony
|
||||
my
|
||||
vy
|
||||
jí
|
||||
ji
|
||||
mě
|
||||
mne
|
||||
jemu
|
||||
tomu
|
||||
těm
|
||||
těmu
|
||||
němu
|
||||
němuž
|
||||
jehož
|
||||
jíž
|
||||
jelikož
|
||||
jež
|
||||
jakož
|
||||
načež
|
Loading…
Reference in New Issue