lucene/modules/analysis/CHANGES.txt

Analysis Module Change Log

For more information on past and future Lucene versions, please see:
http://s.apache.org/luceneversions

======================= Trunk (not yet released) =======================
   
API Changes

 * LUCENE-3820: Deprecated constructors accepting pattern matching bounds. The input
   is buffered and matched in one pass. (Dawid Weiss)

 * LUCENE-2413: Deprecated PatternAnalyzer in common/miscellaneous, in favor 
   of the pattern package (CharFilter, Tokenizer, TokenFilter).  (Robert Muir)

 * LUCENE-2413: Removed the AnalyzerUtil in common/miscellaneous.  (Robert Muir)

 * LUCENE-1370: Added ShingleFilter option to output unigrams if no shingles
   can be generated. (Chris Harris via Steven Rowe)
   
 * LUCENE-2514, LUCENE-2551: JDK and ICU CollationKeyAnalyzers were changed to
   use pure byte keys when Version >= 4.0. This cuts sort key size approximately
   in half. (Robert Muir)

 * LUCENE-3400: Removed DutchAnalyzer.setStemDictionary (Chris Male)

 * LUCENE-3431: Removed QueryAutoStopWordAnalyzer.addStopWords* deprecated methods
   since they prevented reuse.  Stopwords are now generated at instantiation through
   the Analyzer's constructors. (Chris Male)

 * LUCENE-3434: Removed ShingleAnalyzerWrapper.set* and PerFieldAnalyzerWrapper.addAnalyzer
   since they prevent reuse.  Both Analyzers should be configured at instantiation.
   (Chris Male)

 * LUCENE-3765: Stopset ctors that previously took Set<?> or Map<?,String> now take
   CharArraySet and CharArrayMap respectively. Previously the behavior was confusing,
   and sometimes different depending on the type of set, and ultimately a CharArraySet
   or CharArrayMap was always used anyway.  (Robert Muir)

Bug fixes

 * LUCENE-3820: PatternReplaceCharFilter could return invalid token positions. 
   (Dawid Weiss)

New Features

 * LUCENE-2341: A new analyzer/ filter: Morfologik - a dictionary-driven lemmatizer 
   (accurate stemmer) for Polish (includes morphosyntactic annotations).
   (Michał Dybizbański, Dawid Weiss)

 * LUCENE-2413: Consolidated Lucene/Solr analysis components into common. 
   New features from Solr now available to Lucene users include:
   - o.a.l.analysis.commongrams: Constructs n-grams for frequently occurring terms
     and phrases. 
   - o.a.l.analysis.charfilter.HTMLStripCharFilter: CharFilter that strips HTML 
     constructs.
   - o.a.l.analysis.miscellaneous.WordDelimiterFilter: TokenFilter that splits words 
     into subwords and performs optional transformations on subword groups.
   - o.a.l.analysis.miscellaneous.RemoveDuplicatesTokenFilter: TokenFilter which 
     filters out Tokens at the same position and Term text as the previous token.
   - o.a.l.analysis.miscellaneous.TrimFilter: Trims leading and trailing whitespace 
     from Tokens in the stream.
   - o.a.l.analysis.miscellaneous.KeepWordFilter: A TokenFilter that only keeps tokens 
     with text contained in the required words (inverse of StopFilter).
   - o.a.l.analysis.miscellaneous.HyphenatedWordsFilter: A TokenFilter that puts 
     hyphenated words broken into two lines back together.
   - o.a.l.analysis.miscellaneous.CapitalizationFilter: A TokenFilter that applies
     capitalization rules to tokens.
   - o.a.l.analysis.pattern: Package for pattern-based analysis, containing a 
     CharFilter, Tokenizer, and Tokenfilter for transforming text with regexes.
   - o.a.l.analysis.synonym.SynonymFilter: A synonym filter that supports multi-word
     synonyms.
   - o.a.l.analysis.phonetic: Package for phonetic search, containing various
     phonetic encoders such as Double Metaphone.

   Some existing analysis components changed packages:
    - o.a.l.analysis.KeywordAnalyzer -> o.a.l.analysis.core.KeywordAnalyzer
    - o.a.l.analysis.KeywordTokenizer -> o.a.l.analysis.core.KeywordTokenizer
    - o.a.l.analysis.LetterTokenizer -> o.a.l.analysis.core.LetterTokenizer
    - o.a.l.analysis.LowerCaseFilter -> o.a.l.analysis.core.LowerCaseFilter
    - o.a.l.analysis.LowerCaseTokenizer -> o.a.l.analysis.core.LowerCaseTokenizer
    - o.a.l.analysis.SimpleAnalyzer -> o.a.l.analysis.core.SimpleAnalyzer
    - o.a.l.analysis.StopAnalyzer -> o.a.l.analysis.core.StopAnalyzer
    - o.a.l.analysis.StopFilter -> o.a.l.analysis.core.StopFilter
    - o.a.l.analysis.WhitespaceAnalyzer -> o.a.l.analysis.core.WhitespaceAnalyzer
    - o.a.l.analysis.WhitespaceTokenizer -> o.a.l.analysis.core.WhitespaceTokenizer
    - o.a.l.analysis.PorterStemFilter -> o.a.l.analysis.en.PorterStemFilter
    - o.a.l.analysis.ASCIIFoldingFilter -> o.a.l.analysis.miscellaneous.ASCIIFoldingFilter
    - o.a.l.analysis.ISOLatin1AccentFilter -> o.a.l.analysis.miscellaneous.ISOLatin1AccentFilter
    - o.a.l.analysis.KeywordMarkerFilter -> o.a.l.analysis.miscellaneous.KeywordMarkerFilter
    - o.a.l.analysis.LengthFilter -> o.a.l.analysis.miscellaneous.LengthFilter
    - o.a.l.analysis.PerFieldAnalyzerWrapper -> o.a.l.analysis.miscellaneous.PerFieldAnalyzerWrapper
    - o.a.l.analysis.TeeSinkTokenFilter -> o.a.l.analysis.sinks.TeeSinkTokenFilter
    - o.a.l.analysis.CharFilter -> o.a.l.analysis.charfilter.CharFilter
    - o.a.l.analysis.BaseCharFilter -> o.a.l.analysis.charfilter.BaseCharFilter
    - o.a.l.analysis.MappingCharFilter -> o.a.l.analysis.charfilter.MappingCharFilter
    - o.a.l.analysis.NormalizeCharMap -> o.a.l.analysis.charfilter.NormalizeCharMap
    - o.a.l.analysis.CharArraySet -> o.a.l.analysis.util.CharArraySet
    - o.a.l.analysis.CharArrayMap -> o.a.l.analysis.util.CharArrayMap
    - o.a.l.analysis.ReusableAnalyzerBase -> o.a.l.analysis.util.ReusableAnalyzerBase
    - o.a.l.analysis.StopwordAnalyzerBase -> o.a.l.analysis.util.StopwordAnalyzerBase
    - o.a.l.analysis.WordListLoader -> o.a.l.analysis.util.WordListLoader
    - o.a.l.analysis.CharTokenizer -> o.a.l.analysis.util.CharTokenizer
    - o.a.l.util.CharacterUtils -> o.a.l.analysis.util.CharacterUtils

   All analyzers in contrib/analyzers and contrib/icu were moved to the
   analysis module.  The 'smartcn' and 'stempel' components now depend on 'common'.
   (Chris Male, Robert Muir)

 * SOLR-2764: Create a NorwegianLightStemmer and NorwegianMinimalStemmer (janhoy)
LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00			`Analysis Module Change Log`

LUCENE-3163: add link to jira versions information to CHANGES.txt files git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1129656 13f79535-47bb-0310-9956-ffa450edef68 2011-05-31 09:03:40 -04:00			`For more information on past and future Lucene versions, please see:`
			`http://s.apache.org/luceneversions`

LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00			`======================= Trunk (not yet released) =======================`
LUCENE-2732: Fix charset problems in XML loading in HyphenationCompoundWordTokenFilter git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1029345 13f79535-47bb-0310-9956-ffa450edef68 2010-10-31 09:56:46 -04:00
LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00			`API Changes`

LUCENE-3820: Wrong trailing index calculation in PatternReplaceCharFilter. git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1294141 13f79535-47bb-0310-9956-ffa450edef68 2012-02-27 08:13:10 -05:00			`* LUCENE-3820: Deprecated constructors accepting pattern matching bounds. The input`
			`is buffered and matched in one pass. (Dawid Weiss)`

LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00			`* LUCENE-2413: Deprecated PatternAnalyzer in common/miscellaneous, in favor`
			`of the pattern package (CharFilter, Tokenizer, TokenFilter). (Robert Muir)`

			`* LUCENE-2413: Removed the AnalyzerUtil in common/miscellaneous. (Robert Muir)`

LUCENE-1370: Added ShingleFilter option to output unigrams if no shingles can be generated. git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1006187 13f79535-47bb-0310-9956-ffa450edef68 2010-10-09 12:55:23 -04:00			`* LUCENE-1370: Added ShingleFilter option to output unigrams if no shingles`
			`can be generated. (Chris Harris via Steven Rowe)`

LUCENE-2514, LUCENE-2551: collation uses byte[] keys, deprecate old unscalable locale sort/range, termrangequery/filter work on bytes git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1075210 13f79535-47bb-0310-9956-ffa450edef68 2011-02-28 00:15:50 -05:00			`* LUCENE-2514, LUCENE-2551: JDK and ICU CollationKeyAnalyzers were changed to`
			`use pure byte keys when Version >= 4.0. This cuts sort key size approximately`
			`in half. (Robert Muir)`
LUCENE-3400: Removed DutchAnalyzer.setStemDictionary git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1161484 13f79535-47bb-0310-9956-ffa450edef68 2011-08-25 06:32:21 -04:00
			`* LUCENE-3400: Removed DutchAnalyzer.setStemDictionary (Chris Male)`
LUCENE-3410: Deprecated multi-int constructors in WordDelimiterFilter. Now uses int bitfield git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1165995 13f79535-47bb-0310-9956-ffa450edef68 2011-09-07 00:43:10 -04:00
LUCENE-3431: Removed deprecated addStopwords methods in QueryAutoStopWordAnalyzer git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1170424 13f79535-47bb-0310-9956-ffa450edef68 2011-09-13 23:33:50 -04:00			`* LUCENE-3431: Removed QueryAutoStopWordAnalyzer.addStopWords* deprecated methods`
			`since they prevented reuse. Stopwords are now generated at instantiation through`
			`the Analyzer's constructors. (Chris Male)`

LUCENE-3434: Removed state changing setters in ShingleAnalyzerWrapper and PerFieldAnalyzerWrapper git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1170942 13f79535-47bb-0310-9956-ffa450edef68 2011-09-14 23:21:17 -04:00			`* LUCENE-3434: Removed ShingleAnalyzerWrapper.set* and PerFieldAnalyzerWrapper.addAnalyzer`
			`since they prevent reuse. Both Analyzers should be configured at instantiation.`
			`(Chris Male)`

LUCENE-3765: Trappy behavior with StopFilter/ignoreCase git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1242497 13f79535-47bb-0310-9956-ffa450edef68 2012-02-09 14:59:50 -05:00			`* LUCENE-3765: Stopset ctors that previously took Set<?> or Map<?,String> now take`
			`CharArraySet and CharArrayMap respectively. Previously the behavior was confusing,`
			`and sometimes different depending on the type of set, and ultimately a CharArraySet`
			`or CharArrayMap was always used anyway. (Robert Muir)`

LUCENE-3820: Wrong trailing index calculation in PatternReplaceCharFilter. git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1294141 13f79535-47bb-0310-9956-ffa450edef68 2012-02-27 08:13:10 -05:00			`Bug fixes`

			`* LUCENE-3820: PatternReplaceCharFilter could return invalid token positions.`
			`(Dawid Weiss)`

LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00			`New Features`
LUCENE-2341: integrating morfologik (Polish stemming/ morphosyntactic dictionary) as an analysis module. git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1141671 13f79535-47bb-0310-9956-ffa450edef68 2011-06-30 15:12:54 -04:00
			`* LUCENE-2341: A new analyzer/ filter: Morfologik - a dictionary-driven lemmatizer`
			`(accurate stemmer) for Polish (includes morphosyntactic annotations).`
			`(Michał Dybizbański, Dawid Weiss)`

cleanups to 4.x CHANGES git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1231552 13f79535-47bb-0310-9956-ffa450edef68 2012-01-14 13:24:48 -05:00			`* LUCENE-2413: Consolidated Lucene/Solr analysis components into common.`
LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00			`New features from Solr now available to Lucene users include:`
			`- o.a.l.analysis.commongrams: Constructs n-grams for frequently occurring terms`
			`and phrases.`
			`- o.a.l.analysis.charfilter.HTMLStripCharFilter: CharFilter that strips HTML`
			`constructs.`
			`- o.a.l.analysis.miscellaneous.WordDelimiterFilter: TokenFilter that splits words`
			`into subwords and performs optional transformations on subword groups.`
			`- o.a.l.analysis.miscellaneous.RemoveDuplicatesTokenFilter: TokenFilter which`
			`filters out Tokens at the same position and Term text as the previous token.`
			`- o.a.l.analysis.miscellaneous.TrimFilter: Trims leading and trailing whitespace`
			`from Tokens in the stream.`
			`- o.a.l.analysis.miscellaneous.KeepWordFilter: A TokenFilter that only keeps tokens`
			`with text contained in the required words (inverse of StopFilter).`
			`- o.a.l.analysis.miscellaneous.HyphenatedWordsFilter: A TokenFilter that puts`
			`hyphenated words broken into two lines back together.`
LUCENE-2413: consolidate remaining solr tokenstreams into modules/analysis git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@957162 13f79535-47bb-0310-9956-ffa450edef68 2010-06-23 07:25:17 -04:00			`- o.a.l.analysis.miscellaneous.CapitalizationFilter: A TokenFilter that applies`
			`capitalization rules to tokens.`
LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00			`- o.a.l.analysis.pattern: Package for pattern-based analysis, containing a`
			`CharFilter, Tokenizer, and Tokenfilter for transforming text with regexes.`
LUCENE-2413: fold contrib/icu into analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@946590 13f79535-47bb-0310-9956-ffa450edef68 2010-05-20 06:46:00 -04:00			`- o.a.l.analysis.synonym.SynonymFilter: A synonym filter that supports multi-word`
			`synonyms.`
LUCENE-2413: consolidate remaining solr tokenstreams into modules/analysis git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@957162 13f79535-47bb-0310-9956-ffa450edef68 2010-06-23 07:25:17 -04:00			`- o.a.l.analysis.phonetic: Package for phonetic search, containing various`
			`phonetic encoders such as Double Metaphone.`
LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00
cleanups to 4.x CHANGES git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1231552 13f79535-47bb-0310-9956-ffa450edef68 2012-01-14 13:24:48 -05:00			`Some existing analysis components changed packages:`
LUCENE-2413: consolidate remaining concrete core analyzers to modules/analysis git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@948195 13f79535-47bb-0310-9956-ffa450edef68 2010-05-25 16:16:44 -04:00			`- o.a.l.analysis.KeywordAnalyzer -> o.a.l.analysis.core.KeywordAnalyzer`
			`- o.a.l.analysis.KeywordTokenizer -> o.a.l.analysis.core.KeywordTokenizer`
			`- o.a.l.analysis.LetterTokenizer -> o.a.l.analysis.core.LetterTokenizer`
			`- o.a.l.analysis.LowerCaseFilter -> o.a.l.analysis.core.LowerCaseFilter`
			`- o.a.l.analysis.LowerCaseTokenizer -> o.a.l.analysis.core.LowerCaseTokenizer`
			`- o.a.l.analysis.SimpleAnalyzer -> o.a.l.analysis.core.SimpleAnalyzer`
			`- o.a.l.analysis.StopAnalyzer -> o.a.l.analysis.core.StopAnalyzer`
			`- o.a.l.analysis.StopFilter -> o.a.l.analysis.core.StopFilter`
			`- o.a.l.analysis.WhitespaceAnalyzer -> o.a.l.analysis.core.WhitespaceAnalyzer`
			`- o.a.l.analysis.WhitespaceTokenizer -> o.a.l.analysis.core.WhitespaceTokenizer`
LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00			`- o.a.l.analysis.PorterStemFilter -> o.a.l.analysis.en.PorterStemFilter`
			`- o.a.l.analysis.ASCIIFoldingFilter -> o.a.l.analysis.miscellaneous.ASCIIFoldingFilter`
			`- o.a.l.analysis.ISOLatin1AccentFilter -> o.a.l.analysis.miscellaneous.ISOLatin1AccentFilter`
LUCENE-2413: move KeywordMarkerFilter to analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@946621 13f79535-47bb-0310-9956-ffa450edef68 2010-05-20 09:23:12 -04:00			`- o.a.l.analysis.KeywordMarkerFilter -> o.a.l.analysis.miscellaneous.KeywordMarkerFilter`
LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00			`- o.a.l.analysis.LengthFilter -> o.a.l.analysis.miscellaneous.LengthFilter`
			`- o.a.l.analysis.PerFieldAnalyzerWrapper -> o.a.l.analysis.miscellaneous.PerFieldAnalyzerWrapper`
			`- o.a.l.analysis.TeeSinkTokenFilter -> o.a.l.analysis.sinks.TeeSinkTokenFilter`
LUCENE-2413: move more core analysis to analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@948225 13f79535-47bb-0310-9956-ffa450edef68 2010-05-25 18:28:32 -04:00			`- o.a.l.analysis.CharFilter -> o.a.l.analysis.charfilter.CharFilter`
LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00			`- o.a.l.analysis.BaseCharFilter -> o.a.l.analysis.charfilter.BaseCharFilter`
			`- o.a.l.analysis.MappingCharFilter -> o.a.l.analysis.charfilter.MappingCharFilter`
			`- o.a.l.analysis.NormalizeCharMap -> o.a.l.analysis.charfilter.NormalizeCharMap`
LUCENE-2413: move more core analysis to analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@948225 13f79535-47bb-0310-9956-ffa450edef68 2010-05-25 18:28:32 -04:00			`- o.a.l.analysis.CharArraySet -> o.a.l.analysis.util.CharArraySet`
			`- o.a.l.analysis.CharArrayMap -> o.a.l.analysis.util.CharArrayMap`
LUCENE-2413: consolidate remaining concrete core analyzers to modules/analysis git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@948195 13f79535-47bb-0310-9956-ffa450edef68 2010-05-25 16:16:44 -04:00			`- o.a.l.analysis.ReusableAnalyzerBase -> o.a.l.analysis.util.ReusableAnalyzerBase`
			`- o.a.l.analysis.StopwordAnalyzerBase -> o.a.l.analysis.util.StopwordAnalyzerBase`
			`- o.a.l.analysis.WordListLoader -> o.a.l.analysis.util.WordListLoader`
LUCENE-3063: factor CharTokenizer/CharacterUtils into analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1098871 13f79535-47bb-0310-9956-ffa450edef68 2011-05-02 20:29:47 -04:00			`- o.a.l.analysis.CharTokenizer -> o.a.l.analysis.util.CharTokenizer`
			`- o.a.l.util.CharacterUtils -> o.a.l.analysis.util.CharacterUtils`
LUCENE-2444: boilerplate stuff for the analyzers module git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@941369 13f79535-47bb-0310-9956-ffa450edef68 2010-05-05 12:27:58 -04:00
cleanups to 4.x CHANGES git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1231552 13f79535-47bb-0310-9956-ffa450edef68 2012-01-14 13:24:48 -05:00			`All analyzers in contrib/analyzers and contrib/icu were moved to the`
			`analysis module. The 'smartcn' and 'stempel' components now depend on 'common'.`
			`(Chris Male, Robert Muir)`
SOLR-2764: Create a NorwegianLightStemmer and NorwegianMinimalStemmer git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1302833 13f79535-47bb-0310-9956-ffa450edef68 2012-03-20 06:57:50 -04:00
			`* SOLR-2764: Create a NorwegianLightStemmer and NorwegianMinimalStemmer (janhoy)`