mirror of https://github.com/apache/lucene.git
LUCENE-2699: Update StandardTokenizer and UAX29Tokenizer to Unicode 6.0.0
git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/trunk@1022826 13f79535-47bb-0310-9956-ffa450edef68
This commit is contained in:
parent
ad355b66ca
commit
7f6dd505f1
|
@ -15,6 +15,9 @@ API Changes
|
|||
RFCs. ClassicTokenizer/Analyzer retains the old StandardTokenizer/Analyzer
|
||||
behavior. (Steven Rowe, Robert Muir, Uwe Schindler)
|
||||
|
||||
* LUCENE-2699: Update StandardTokenizer and UAX29Tokenizer to Unicode 6.0.0.
|
||||
(Steven Rowe)
|
||||
|
||||
* LUCENE-1370: Added ShingleFilter option to output unigrams if no shingles
|
||||
can be generated. (Chris Harris via Steven Rowe)
|
||||
|
||||
|
|
|
@ -15,8 +15,8 @@
|
|||
*/
|
||||
|
||||
// Generated from IANA Root Zone Database <http://www.internic.net/zones/root.zone>
|
||||
// file version from Sunday, October 3, 2010 11:34:02 AM UTC
|
||||
// generated on Sunday, October 3, 2010 1:07:42 PM UTC
|
||||
// file version from Tuesday, October 12, 2010 11:34:09 AM UTC
|
||||
// generated on Wednesday, October 13, 2010 4:12:27 AM UTC
|
||||
// by org.apache.lucene.analysis.standard.GenerateJflexTLDMacros
|
||||
|
||||
ASCIITLD = "." (
|
||||
|
|
|
@ -18,4 +18,4 @@
|
|||
|
||||
WARNING: if you change StandardTokenizerImpl*.jflex and need to regenerate
|
||||
the tokenizer, only use the trunk version of JFlex 1.5 (with a minimum
|
||||
SVN revision 591) at the moment!
|
||||
SVN revision 597) at the moment!
|
||||
|
|
|
@ -1,4 +1,4 @@
|
|||
/* The following code was generated by JFlex 1.5.0-SNAPSHOT on 10/3/10 9:07 AM */
|
||||
/* The following code was generated by JFlex 1.5.0-SNAPSHOT on 10/13/10 12:12 AM */
|
||||
|
||||
package org.apache.lucene.analysis.standard;
|
||||
|
||||
|
@ -87,107 +87,109 @@ public final class StandardTokenizerImpl implements StandardTokenizerInterface {
|
|||
"\37\1\1\0\u01ca\1\4\0\14\1\16\0\5\1\7\0\1\1\1\0"+
|
||||
"\1\1\21\0\160\2\5\1\1\0\2\1\2\0\4\1\1\6\7\0"+
|
||||
"\1\1\1\5\3\1\1\0\1\1\1\0\24\1\1\0\123\1\1\0"+
|
||||
"\213\1\1\0\7\2\234\1\13\0\46\1\2\0\1\1\7\0\47\1"+
|
||||
"\213\1\1\0\7\2\236\1\11\0\46\1\2\0\1\1\7\0\47\1"+
|
||||
"\1\0\1\6\7\0\55\2\1\0\1\2\1\0\2\2\1\0\2\2"+
|
||||
"\1\0\1\2\10\0\33\1\5\0\4\1\1\5\13\0\4\2\10\0"+
|
||||
"\2\6\2\0\13\2\6\0\52\1\24\2\1\0\12\3\1\0\1\3"+
|
||||
"\1\6\1\0\2\1\1\2\143\1\1\0\1\1\17\2\2\1\2\2"+
|
||||
"\1\0\4\2\2\1\12\3\3\1\2\0\1\1\17\0\1\2\1\1"+
|
||||
"\1\2\36\1\33\2\2\0\131\1\13\2\1\1\16\0\12\3\41\1"+
|
||||
"\11\2\2\1\2\0\1\6\1\0\1\1\5\0\26\1\4\2\1\1"+
|
||||
"\11\2\1\1\3\2\1\1\5\2\322\0\4\2\66\1\2\0\1\2"+
|
||||
"\1\1\21\2\1\0\1\1\5\2\2\0\12\1\2\2\2\0\12\3"+
|
||||
"\1\0\2\1\6\0\7\1\1\0\3\2\1\0\10\1\2\0\2\1"+
|
||||
"\2\0\26\1\1\0\7\1\1\0\1\1\3\0\4\1\2\0\1\2"+
|
||||
"\1\1\7\2\2\0\2\2\2\0\3\2\1\1\10\0\1\2\4\0"+
|
||||
"\2\1\1\0\3\1\2\2\2\0\12\3\2\1\17\0\3\2\1\0"+
|
||||
"\6\1\4\0\2\1\2\0\26\1\1\0\7\1\1\0\2\1\1\0"+
|
||||
"\2\1\1\0\2\1\2\0\1\2\1\0\5\2\4\0\2\2\2\0"+
|
||||
"\3\2\3\0\1\2\7\0\4\1\1\0\1\1\7\0\12\3\2\2"+
|
||||
"\3\1\1\2\13\0\3\2\1\0\11\1\1\0\3\1\1\0\26\1"+
|
||||
"\1\0\7\1\1\0\2\1\1\0\5\1\2\0\1\2\1\1\10\2"+
|
||||
"\1\0\3\2\1\0\3\2\2\0\1\1\17\0\2\1\2\2\2\0"+
|
||||
"\12\3\21\0\3\2\1\0\10\1\2\0\2\1\2\0\26\1\1\0"+
|
||||
"\7\1\1\0\2\1\1\0\5\1\2\0\1\2\1\1\7\2\2\0"+
|
||||
"\2\2\2\0\3\2\10\0\2\2\4\0\2\1\1\0\3\1\2\2"+
|
||||
"\2\0\12\3\1\0\1\1\20\0\1\2\1\1\1\0\6\1\3\0"+
|
||||
"\3\1\1\0\4\1\3\0\2\1\1\0\1\1\1\0\2\1\3\0"+
|
||||
"\2\1\3\0\3\1\3\0\14\1\4\0\5\2\3\0\3\2\1\0"+
|
||||
"\4\2\2\0\1\1\6\0\1\2\16\0\12\3\21\0\3\2\1\0"+
|
||||
"\10\1\1\0\3\1\1\0\27\1\1\0\12\1\1\0\5\1\3\0"+
|
||||
"\1\1\7\2\1\0\3\2\1\0\4\2\7\0\2\2\1\0\2\1"+
|
||||
"\6\0\2\1\2\2\2\0\12\3\22\0\2\2\1\0\10\1\1\0"+
|
||||
"\3\1\1\0\27\1\1\0\12\1\1\0\5\1\2\0\1\2\1\1"+
|
||||
"\7\2\1\0\3\2\1\0\4\2\7\0\2\2\7\0\1\1\1\0"+
|
||||
"\2\1\2\2\2\0\12\3\22\0\2\2\1\0\10\1\1\0\3\1"+
|
||||
"\1\0\27\1\1\0\20\1\3\0\1\1\7\2\1\0\3\2\1\0"+
|
||||
"\4\2\11\0\1\2\10\0\2\1\2\2\2\0\12\3\12\0\6\1"+
|
||||
"\2\0\2\2\1\0\22\1\3\0\30\1\1\0\11\1\1\0\1\1"+
|
||||
"\2\0\7\1\3\0\1\2\4\0\6\2\1\0\1\2\1\0\10\2"+
|
||||
"\22\0\2\2\15\0\60\105\1\106\2\105\7\106\5\0\7\105\10\106"+
|
||||
"\1\0\12\3\47\0\2\105\1\0\1\105\2\0\2\105\1\0\1\105"+
|
||||
"\2\0\1\105\6\0\4\105\1\0\7\105\1\0\3\105\1\0\1\105"+
|
||||
"\1\0\1\105\2\0\2\105\1\0\4\105\1\106\2\105\6\106\1\0"+
|
||||
"\2\106\1\105\2\0\5\105\1\0\1\105\1\0\6\106\2\0\12\3"+
|
||||
"\2\0\2\105\42\0\1\1\27\0\2\2\6\0\12\3\13\0\1\2"+
|
||||
"\1\0\1\2\1\0\1\2\4\0\2\2\10\1\1\0\44\1\4\0"+
|
||||
"\24\2\1\0\2\2\4\1\4\0\10\2\1\0\44\2\11\0\1\2"+
|
||||
"\71\0\53\105\24\106\1\105\12\3\6\0\6\105\4\106\4\105\3\106"+
|
||||
"\1\105\3\106\2\105\7\106\3\105\4\106\15\105\14\106\1\105\1\106"+
|
||||
"\12\3\4\106\2\105\46\1\12\0\53\1\1\0\1\1\3\0\u0149\1"+
|
||||
"\1\0\4\1\2\0\7\1\1\0\1\1\1\0\4\1\2\0\51\1"+
|
||||
"\1\0\4\1\2\0\41\1\1\0\4\1\2\0\7\1\1\0\1\1"+
|
||||
"\1\0\4\1\2\0\17\1\1\0\71\1\1\0\4\1\2\0\103\1"+
|
||||
"\4\0\1\2\40\0\20\1\20\0\125\1\14\0\u026c\1\2\0\21\1"+
|
||||
"\1\0\32\1\5\0\113\1\3\0\3\1\17\0\15\1\1\0\4\1"+
|
||||
"\3\2\13\0\22\1\3\2\13\0\22\1\2\2\14\0\15\1\1\0"+
|
||||
"\3\1\1\0\2\2\14\0\64\105\40\106\3\0\1\105\4\0\1\105"+
|
||||
"\1\106\2\0\12\3\41\0\3\2\2\0\12\3\6\0\130\1\10\0"+
|
||||
"\51\1\1\2\1\1\5\0\106\1\12\0\35\1\3\0\14\2\4\0"+
|
||||
"\14\2\12\0\12\3\36\105\2\0\5\105\13\0\54\105\4\0\21\106"+
|
||||
"\7\105\2\106\6\0\13\3\3\0\2\105\40\0\27\1\5\2\4\0"+
|
||||
"\65\105\12\106\1\0\35\106\2\0\1\2\12\3\6\0\12\3\6\0"+
|
||||
"\16\105\122\0\5\2\57\1\21\2\7\1\4\0\12\3\21\0\11\2"+
|
||||
"\14\0\3\2\36\1\12\2\3\0\2\1\12\3\106\0\44\1\24\2"+
|
||||
"\10\0\12\3\3\0\3\1\12\3\44\1\122\0\3\2\1\0\25\2"+
|
||||
"\4\1\1\2\4\1\1\2\15\0\300\1\47\2\26\0\3\2\u0116\1"+
|
||||
"\2\0\6\1\2\0\46\1\2\0\6\1\2\0\10\1\1\0\1\1"+
|
||||
"\1\0\1\1\1\0\1\1\1\0\37\1\2\0\65\1\1\0\7\1"+
|
||||
"\1\0\1\1\3\0\3\1\1\0\7\1\3\0\4\1\2\0\6\1"+
|
||||
"\4\0\15\1\5\0\3\1\1\0\7\1\17\0\4\2\10\0\2\7"+
|
||||
"\12\0\1\7\2\0\1\5\2\0\5\2\20\0\2\10\3\0\1\6"+
|
||||
"\17\0\1\10\13\0\5\2\5\0\6\2\1\0\1\1\15\0\1\1"+
|
||||
"\20\0\5\1\73\0\41\2\21\0\1\1\4\0\1\1\2\0\12\1"+
|
||||
"\1\0\1\1\3\0\5\1\6\0\1\1\1\0\1\1\1\0\1\1"+
|
||||
"\1\0\4\1\1\0\13\1\2\0\4\1\5\0\5\1\4\0\1\1"+
|
||||
"\21\0\51\1\u032d\0\64\1\u0716\0\57\1\1\0\57\1\1\0\205\1"+
|
||||
"\6\0\4\1\3\2\16\0\46\1\12\0\66\1\11\0\1\1\20\0"+
|
||||
"\27\1\11\0\7\1\1\0\7\1\1\0\7\1\1\0\7\1\1\0"+
|
||||
"\7\1\1\0\7\1\1\0\7\1\1\0\7\1\1\0\40\2\57\0"+
|
||||
"\1\1\120\0\32\107\1\0\131\107\14\0\326\107\57\0\1\1\1\0"+
|
||||
"\1\107\31\0\11\107\6\2\1\0\5\4\2\0\3\107\1\1\1\1"+
|
||||
"\4\0\126\110\2\0\2\2\2\4\3\110\133\4\1\0\4\4\5\0"+
|
||||
"\51\1\3\0\136\1\21\0\30\1\70\0\20\4\320\0\57\4\1\0"+
|
||||
"\130\4\250\0\u19b6\107\112\0\u51cc\107\64\0\u048d\1\103\0\56\1\2\0"+
|
||||
"\u010d\1\3\0\20\1\12\3\2\1\24\0\40\1\2\0\15\1\4\2"+
|
||||
"\11\0\2\2\1\0\31\1\10\0\120\1\2\2\45\0\11\1\2\0"+
|
||||
"\147\1\2\0\2\1\156\0\7\1\1\2\3\1\1\2\4\1\1\2"+
|
||||
"\27\1\5\2\30\0\64\1\14\0\2\2\62\1\21\2\13\0\12\3"+
|
||||
"\6\0\22\2\6\1\3\0\1\1\4\0\12\3\34\1\10\2\2\0"+
|
||||
"\27\1\15\2\14\0\35\1\3\0\4\2\57\1\16\2\16\0\1\1"+
|
||||
"\12\3\46\0\51\1\16\2\11\0\3\1\1\2\10\1\2\2\2\0"+
|
||||
"\12\3\6\0\33\105\1\106\4\0\60\105\1\106\1\105\3\106\2\105"+
|
||||
"\2\106\5\105\2\106\1\105\1\106\1\105\30\0\5\105\340\0\43\1"+
|
||||
"\10\2\1\0\2\2\2\0\12\3\6\0\u2ba4\1\14\0\27\1\4\0"+
|
||||
"\61\1\u2104\0\u012e\107\2\0\76\107\2\0\152\107\46\0\7\1\14\0"+
|
||||
"\5\1\5\0\1\1\1\2\12\1\1\0\15\1\1\0\5\1\1\0"+
|
||||
"\1\1\1\0\2\1\1\0\2\1\1\0\154\1\41\0\u016b\1\22\0"+
|
||||
"\100\1\2\0\66\1\50\0\14\1\4\0\20\2\1\6\2\0\1\5"+
|
||||
"\1\6\13\0\7\2\14\0\2\10\30\0\3\10\1\6\1\0\1\7"+
|
||||
"\1\0\1\6\1\5\32\0\5\1\1\0\207\1\2\0\1\2\7\0"+
|
||||
"\1\7\4\0\1\6\1\0\1\7\1\0\12\3\1\5\1\6\5\0"+
|
||||
"\32\1\4\0\1\10\1\0\32\1\13\0\70\4\2\2\37\1\3\0"+
|
||||
"\6\1\2\0\6\1\2\0\6\1\2\0\3\1\34\0\3\2\4\0";
|
||||
"\2\6\2\0\13\2\5\0\53\1\25\2\12\3\1\0\1\3\1\6"+
|
||||
"\1\0\2\1\1\2\143\1\1\0\1\1\10\2\1\0\6\2\2\1"+
|
||||
"\2\2\1\0\4\2\2\1\12\3\3\1\2\0\1\1\17\0\1\2"+
|
||||
"\1\1\1\2\36\1\33\2\2\0\131\1\13\2\1\1\16\0\12\3"+
|
||||
"\41\1\11\2\2\1\2\0\1\6\1\0\1\1\5\0\26\1\4\2"+
|
||||
"\1\1\11\2\1\1\3\2\1\1\5\2\22\0\31\1\3\2\244\0"+
|
||||
"\4\2\66\1\3\2\1\1\22\2\1\1\7\2\12\1\2\2\2\0"+
|
||||
"\12\3\1\0\7\1\1\0\7\1\1\0\3\2\1\0\10\1\2\0"+
|
||||
"\2\1\2\0\26\1\1\0\7\1\1\0\1\1\3\0\4\1\2\0"+
|
||||
"\1\2\1\1\7\2\2\0\2\2\2\0\3\2\1\1\10\0\1\2"+
|
||||
"\4\0\2\1\1\0\3\1\2\2\2\0\12\3\2\1\17\0\3\2"+
|
||||
"\1\0\6\1\4\0\2\1\2\0\26\1\1\0\7\1\1\0\2\1"+
|
||||
"\1\0\2\1\1\0\2\1\2\0\1\2\1\0\5\2\4\0\2\2"+
|
||||
"\2\0\3\2\3\0\1\2\7\0\4\1\1\0\1\1\7\0\12\3"+
|
||||
"\2\2\3\1\1\2\13\0\3\2\1\0\11\1\1\0\3\1\1\0"+
|
||||
"\26\1\1\0\7\1\1\0\2\1\1\0\5\1\2\0\1\2\1\1"+
|
||||
"\10\2\1\0\3\2\1\0\3\2\2\0\1\1\17\0\2\1\2\2"+
|
||||
"\2\0\12\3\21\0\3\2\1\0\10\1\2\0\2\1\2\0\26\1"+
|
||||
"\1\0\7\1\1\0\2\1\1\0\5\1\2\0\1\2\1\1\7\2"+
|
||||
"\2\0\2\2\2\0\3\2\10\0\2\2\4\0\2\1\1\0\3\1"+
|
||||
"\2\2\2\0\12\3\1\0\1\1\20\0\1\2\1\1\1\0\6\1"+
|
||||
"\3\0\3\1\1\0\4\1\3\0\2\1\1\0\1\1\1\0\2\1"+
|
||||
"\3\0\2\1\3\0\3\1\3\0\14\1\4\0\5\2\3\0\3\2"+
|
||||
"\1\0\4\2\2\0\1\1\6\0\1\2\16\0\12\3\21\0\3\2"+
|
||||
"\1\0\10\1\1\0\3\1\1\0\27\1\1\0\12\1\1\0\5\1"+
|
||||
"\3\0\1\1\7\2\1\0\3\2\1\0\4\2\7\0\2\2\1\0"+
|
||||
"\2\1\6\0\2\1\2\2\2\0\12\3\22\0\2\2\1\0\10\1"+
|
||||
"\1\0\3\1\1\0\27\1\1\0\12\1\1\0\5\1\2\0\1\2"+
|
||||
"\1\1\7\2\1\0\3\2\1\0\4\2\7\0\2\2\7\0\1\1"+
|
||||
"\1\0\2\1\2\2\2\0\12\3\1\0\2\1\17\0\2\2\1\0"+
|
||||
"\10\1\1\0\3\1\1\0\51\1\2\0\1\1\7\2\1\0\3\2"+
|
||||
"\1\0\4\2\1\1\10\0\1\2\10\0\2\1\2\2\2\0\12\3"+
|
||||
"\12\0\6\1\2\0\2\2\1\0\22\1\3\0\30\1\1\0\11\1"+
|
||||
"\1\0\1\1\2\0\7\1\3\0\1\2\4\0\6\2\1\0\1\2"+
|
||||
"\1\0\10\2\22\0\2\2\15\0\60\105\1\106\2\105\7\106\5\0"+
|
||||
"\7\105\10\106\1\0\12\3\47\0\2\105\1\0\1\105\2\0\2\105"+
|
||||
"\1\0\1\105\2\0\1\105\6\0\4\105\1\0\7\105\1\0\3\105"+
|
||||
"\1\0\1\105\1\0\1\105\2\0\2\105\1\0\4\105\1\106\2\105"+
|
||||
"\6\106\1\0\2\106\1\105\2\0\5\105\1\0\1\105\1\0\6\106"+
|
||||
"\2\0\12\3\2\0\2\105\42\0\1\1\27\0\2\2\6\0\12\3"+
|
||||
"\13\0\1\2\1\0\1\2\1\0\1\2\4\0\2\2\10\1\1\0"+
|
||||
"\44\1\4\0\24\2\1\0\2\2\5\1\13\2\1\0\44\2\11\0"+
|
||||
"\1\2\71\0\53\105\24\106\1\105\12\3\6\0\6\105\4\106\4\105"+
|
||||
"\3\106\1\105\3\106\2\105\7\106\3\105\4\106\15\105\14\106\1\105"+
|
||||
"\1\106\12\3\4\106\2\105\46\1\12\0\53\1\1\0\1\1\3\0"+
|
||||
"\u0149\1\1\0\4\1\2\0\7\1\1\0\1\1\1\0\4\1\2\0"+
|
||||
"\51\1\1\0\4\1\2\0\41\1\1\0\4\1\2\0\7\1\1\0"+
|
||||
"\1\1\1\0\4\1\2\0\17\1\1\0\71\1\1\0\4\1\2\0"+
|
||||
"\103\1\2\0\3\2\40\0\20\1\20\0\125\1\14\0\u026c\1\2\0"+
|
||||
"\21\1\1\0\32\1\5\0\113\1\3\0\3\1\17\0\15\1\1\0"+
|
||||
"\4\1\3\2\13\0\22\1\3\2\13\0\22\1\2\2\14\0\15\1"+
|
||||
"\1\0\3\1\1\0\2\2\14\0\64\105\40\106\3\0\1\105\4\0"+
|
||||
"\1\105\1\106\2\0\12\3\41\0\3\2\2\0\12\3\6\0\130\1"+
|
||||
"\10\0\51\1\1\2\1\1\5\0\106\1\12\0\35\1\3\0\14\2"+
|
||||
"\4\0\14\2\12\0\12\3\36\105\2\0\5\105\13\0\54\105\4\0"+
|
||||
"\21\106\7\105\2\106\6\0\12\3\1\105\3\0\2\105\40\0\27\1"+
|
||||
"\5\2\4\0\65\105\12\106\1\0\35\106\2\0\1\2\12\3\6\0"+
|
||||
"\12\3\6\0\16\105\122\0\5\2\57\1\21\2\7\1\4\0\12\3"+
|
||||
"\21\0\11\2\14\0\3\2\36\1\12\2\3\0\2\1\12\3\6\0"+
|
||||
"\46\1\16\2\14\0\44\1\24\2\10\0\12\3\3\0\3\1\12\3"+
|
||||
"\44\1\122\0\3\2\1\0\25\2\4\1\1\2\4\1\1\2\15\0"+
|
||||
"\300\1\47\2\25\0\4\2\u0116\1\2\0\6\1\2\0\46\1\2\0"+
|
||||
"\6\1\2\0\10\1\1\0\1\1\1\0\1\1\1\0\1\1\1\0"+
|
||||
"\37\1\2\0\65\1\1\0\7\1\1\0\1\1\3\0\3\1\1\0"+
|
||||
"\7\1\3\0\4\1\2\0\6\1\4\0\15\1\5\0\3\1\1\0"+
|
||||
"\7\1\17\0\4\2\10\0\2\7\12\0\1\7\2\0\1\5\2\0"+
|
||||
"\5\2\20\0\2\10\3\0\1\6\17\0\1\10\13\0\5\2\5\0"+
|
||||
"\6\2\1\0\1\1\15\0\1\1\20\0\15\1\63\0\41\2\21\0"+
|
||||
"\1\1\4\0\1\1\2\0\12\1\1\0\1\1\3\0\5\1\6\0"+
|
||||
"\1\1\1\0\1\1\1\0\1\1\1\0\4\1\1\0\13\1\2\0"+
|
||||
"\4\1\5\0\5\1\4\0\1\1\21\0\51\1\u032d\0\64\1\u0716\0"+
|
||||
"\57\1\1\0\57\1\1\0\205\1\6\0\4\1\3\2\16\0\46\1"+
|
||||
"\12\0\66\1\11\0\1\1\17\0\1\2\27\1\11\0\7\1\1\0"+
|
||||
"\7\1\1\0\7\1\1\0\7\1\1\0\7\1\1\0\7\1\1\0"+
|
||||
"\7\1\1\0\7\1\1\0\40\2\57\0\1\1\120\0\32\107\1\0"+
|
||||
"\131\107\14\0\326\107\57\0\1\1\1\0\1\107\31\0\11\107\6\2"+
|
||||
"\1\0\5\4\2\0\3\107\1\1\1\1\4\0\126\110\2\0\2\2"+
|
||||
"\2\4\3\110\133\4\1\0\4\4\5\0\51\1\3\0\136\1\21\0"+
|
||||
"\33\1\65\0\20\4\320\0\57\4\1\0\130\4\250\0\u19b6\107\112\0"+
|
||||
"\u51cc\107\64\0\u048d\1\103\0\56\1\2\0\u010d\1\3\0\20\1\12\3"+
|
||||
"\2\1\24\0\57\1\4\2\11\0\2\2\1\0\31\1\10\0\120\1"+
|
||||
"\2\2\45\0\11\1\2\0\147\1\2\0\4\1\1\0\2\1\16\0"+
|
||||
"\12\1\120\0\10\1\1\2\3\1\1\2\4\1\1\2\27\1\5\2"+
|
||||
"\30\0\64\1\14\0\2\2\62\1\21\2\13\0\12\3\6\0\22\2"+
|
||||
"\6\1\3\0\1\1\4\0\12\3\34\1\10\2\2\0\27\1\15\2"+
|
||||
"\14\0\35\1\3\0\4\2\57\1\16\2\16\0\1\1\12\3\46\0"+
|
||||
"\51\1\16\2\11\0\3\1\1\2\10\1\2\2\2\0\12\3\6\0"+
|
||||
"\33\105\1\106\4\0\60\105\1\106\1\105\3\106\2\105\2\106\5\105"+
|
||||
"\2\106\1\105\1\106\1\105\30\0\5\105\41\0\6\1\2\0\6\1"+
|
||||
"\2\0\6\1\11\0\7\1\1\0\7\1\221\0\43\1\10\2\1\0"+
|
||||
"\2\2\2\0\12\3\6\0\u2ba4\1\14\0\27\1\4\0\61\1\u2104\0"+
|
||||
"\u012e\107\2\0\76\107\2\0\152\107\46\0\7\1\14\0\5\1\5\0"+
|
||||
"\1\1\1\2\12\1\1\0\15\1\1\0\5\1\1\0\1\1\1\0"+
|
||||
"\2\1\1\0\2\1\1\0\154\1\41\0\u016b\1\22\0\100\1\2\0"+
|
||||
"\66\1\50\0\14\1\4\0\20\2\1\6\2\0\1\5\1\6\13\0"+
|
||||
"\7\2\14\0\2\10\30\0\3\10\1\6\1\0\1\7\1\0\1\6"+
|
||||
"\1\5\32\0\5\1\1\0\207\1\2\0\1\2\7\0\1\7\4\0"+
|
||||
"\1\6\1\0\1\7\1\0\12\3\1\5\1\6\5\0\32\1\4\0"+
|
||||
"\1\10\1\0\32\1\13\0\70\4\2\2\37\1\3\0\6\1\2\0"+
|
||||
"\6\1\2\0\6\1\2\0\3\1\34\0\3\2\4\0";
|
||||
|
||||
/**
|
||||
* Translates characters to character classes
|
||||
|
@ -2440,7 +2442,7 @@ public final class StandardTokenizerImpl implements StandardTokenizerInterface {
|
|||
char [] map = new char[0x10000];
|
||||
int i = 0; /* index in packed string */
|
||||
int j = 0; /* index in unpacked array */
|
||||
while (i < 2300) {
|
||||
while (i < 2336) {
|
||||
int count = packed.charAt(i++);
|
||||
char value = packed.charAt(i++);
|
||||
do map[j++] = value; while (--count > 0);
|
||||
|
@ -2713,36 +2715,36 @@ public final class StandardTokenizerImpl implements StandardTokenizerInterface {
|
|||
zzMarkedPos = zzMarkedPosL;
|
||||
|
||||
switch (zzAction < 0 ? zzAction : ZZ_ACTION[zzAction]) {
|
||||
case 1:
|
||||
{ /* Not numeric, word, ideographic, hiragana, or SE Asian -- ignore it. */
|
||||
}
|
||||
case 9: break;
|
||||
case 6:
|
||||
{ return HIRAGANA_TYPE;
|
||||
}
|
||||
case 10: break;
|
||||
case 2:
|
||||
{ return WORD_TYPE;
|
||||
}
|
||||
case 9: break;
|
||||
case 4:
|
||||
{ return SOUTH_EAST_ASIAN_TYPE;
|
||||
}
|
||||
case 10: break;
|
||||
case 11: break;
|
||||
case 8:
|
||||
{ return URL_TYPE;
|
||||
}
|
||||
case 11: break;
|
||||
case 7:
|
||||
{ return EMAIL_TYPE;
|
||||
}
|
||||
case 12: break;
|
||||
case 5:
|
||||
{ return IDEOGRAPHIC_TYPE;
|
||||
}
|
||||
case 13: break;
|
||||
case 1:
|
||||
{ /* Not numeric, word, ideographic, hiragana, or SE Asian -- ignore it. */
|
||||
case 7:
|
||||
{ return EMAIL_TYPE;
|
||||
}
|
||||
case 14: break;
|
||||
case 3:
|
||||
{ return NUMERIC_TYPE;
|
||||
}
|
||||
case 15: break;
|
||||
case 6:
|
||||
{ return HIRAGANA_TYPE;
|
||||
case 4:
|
||||
{ return SOUTH_EAST_ASIAN_TYPE;
|
||||
}
|
||||
case 16: break;
|
||||
default:
|
||||
|
|
|
@ -47,7 +47,7 @@ import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
|
|||
*/
|
||||
%%
|
||||
|
||||
%unicode 5.2
|
||||
%unicode 6.0
|
||||
%integer
|
||||
%final
|
||||
%public
|
||||
|
@ -234,7 +234,7 @@ EMAIL = {EMAILlocalPart} "@" ({DomainNameStrict} | {EMAILbracketedHost})
|
|||
// annex. That means that satisfactory treatment of languages like Chinese
|
||||
// or Thai requires special handling.
|
||||
//
|
||||
// In Unicode 5.2, only one character has the \p{Line_Break = Contingent_Break}
|
||||
// In Unicode 6.0, only one character has the \p{Line_Break = Contingent_Break}
|
||||
// property: U+FFFC (  ) OBJECT REPLACEMENT CHARACTER.
|
||||
//
|
||||
// In the ICU implementation of UAX#29, \p{Line_Break = Complex_Context}
|
||||
|
|
|
@ -1,4 +1,4 @@
|
|||
/* The following code was generated by JFlex 1.5.0-SNAPSHOT on 10/3/10 9:07 AM */
|
||||
/* The following code was generated by JFlex 1.5.0-SNAPSHOT on 10/13/10 12:12 AM */
|
||||
|
||||
package org.apache.lucene.analysis.standard;
|
||||
|
||||
|
@ -85,107 +85,109 @@ public final class UAX29Tokenizer extends Tokenizer {
|
|||
"\1\0\u01ca\1\4\0\14\1\16\0\5\1\7\0\1\1\1\0\1\1"+
|
||||
"\21\0\160\2\5\1\1\0\2\1\2\0\4\1\1\6\7\0\1\1"+
|
||||
"\1\5\3\1\1\0\1\1\1\0\24\1\1\0\123\1\1\0\213\1"+
|
||||
"\1\0\7\2\234\1\13\0\46\1\2\0\1\1\7\0\47\1\1\0"+
|
||||
"\1\0\7\2\236\1\11\0\46\1\2\0\1\1\7\0\47\1\1\0"+
|
||||
"\1\6\7\0\55\2\1\0\1\2\1\0\2\2\1\0\2\2\1\0"+
|
||||
"\1\2\10\0\33\1\5\0\4\1\1\5\13\0\4\2\10\0\2\6"+
|
||||
"\2\0\13\2\6\0\52\1\24\2\1\0\12\3\1\0\1\3\1\6"+
|
||||
"\1\0\2\1\1\2\143\1\1\0\1\1\17\2\2\1\2\2\1\0"+
|
||||
"\4\2\2\1\12\3\3\1\2\0\1\1\17\0\1\2\1\1\1\2"+
|
||||
"\36\1\33\2\2\0\131\1\13\2\1\1\16\0\12\3\41\1\11\2"+
|
||||
"\2\1\2\0\1\6\1\0\1\1\5\0\26\1\4\2\1\1\11\2"+
|
||||
"\1\1\3\2\1\1\5\2\322\0\4\2\66\1\2\0\1\2\1\1"+
|
||||
"\21\2\1\0\1\1\5\2\2\0\12\1\2\2\2\0\12\3\1\0"+
|
||||
"\2\1\6\0\7\1\1\0\3\2\1\0\10\1\2\0\2\1\2\0"+
|
||||
"\26\1\1\0\7\1\1\0\1\1\3\0\4\1\2\0\1\2\1\1"+
|
||||
"\7\2\2\0\2\2\2\0\3\2\1\1\10\0\1\2\4\0\2\1"+
|
||||
"\1\0\3\1\2\2\2\0\12\3\2\1\17\0\3\2\1\0\6\1"+
|
||||
"\4\0\2\1\2\0\26\1\1\0\7\1\1\0\2\1\1\0\2\1"+
|
||||
"\1\0\2\1\2\0\1\2\1\0\5\2\4\0\2\2\2\0\3\2"+
|
||||
"\3\0\1\2\7\0\4\1\1\0\1\1\7\0\12\3\2\2\3\1"+
|
||||
"\1\2\13\0\3\2\1\0\11\1\1\0\3\1\1\0\26\1\1\0"+
|
||||
"\7\1\1\0\2\1\1\0\5\1\2\0\1\2\1\1\10\2\1\0"+
|
||||
"\3\2\1\0\3\2\2\0\1\1\17\0\2\1\2\2\2\0\12\3"+
|
||||
"\21\0\3\2\1\0\10\1\2\0\2\1\2\0\26\1\1\0\7\1"+
|
||||
"\1\0\2\1\1\0\5\1\2\0\1\2\1\1\7\2\2\0\2\2"+
|
||||
"\2\0\3\2\10\0\2\2\4\0\2\1\1\0\3\1\2\2\2\0"+
|
||||
"\12\3\1\0\1\1\20\0\1\2\1\1\1\0\6\1\3\0\3\1"+
|
||||
"\1\0\4\1\3\0\2\1\1\0\1\1\1\0\2\1\3\0\2\1"+
|
||||
"\3\0\3\1\3\0\14\1\4\0\5\2\3\0\3\2\1\0\4\2"+
|
||||
"\2\0\1\1\6\0\1\2\16\0\12\3\21\0\3\2\1\0\10\1"+
|
||||
"\1\0\3\1\1\0\27\1\1\0\12\1\1\0\5\1\3\0\1\1"+
|
||||
"\7\2\1\0\3\2\1\0\4\2\7\0\2\2\1\0\2\1\6\0"+
|
||||
"\2\1\2\2\2\0\12\3\22\0\2\2\1\0\10\1\1\0\3\1"+
|
||||
"\1\0\27\1\1\0\12\1\1\0\5\1\2\0\1\2\1\1\7\2"+
|
||||
"\1\0\3\2\1\0\4\2\7\0\2\2\7\0\1\1\1\0\2\1"+
|
||||
"\2\2\2\0\12\3\22\0\2\2\1\0\10\1\1\0\3\1\1\0"+
|
||||
"\27\1\1\0\20\1\3\0\1\1\7\2\1\0\3\2\1\0\4\2"+
|
||||
"\11\0\1\2\10\0\2\1\2\2\2\0\12\3\12\0\6\1\2\0"+
|
||||
"\2\2\1\0\22\1\3\0\30\1\1\0\11\1\1\0\1\1\2\0"+
|
||||
"\7\1\3\0\1\2\4\0\6\2\1\0\1\2\1\0\10\2\22\0"+
|
||||
"\2\2\15\0\60\11\1\12\2\11\7\12\5\0\7\11\10\12\1\0"+
|
||||
"\12\3\47\0\2\11\1\0\1\11\2\0\2\11\1\0\1\11\2\0"+
|
||||
"\1\11\6\0\4\11\1\0\7\11\1\0\3\11\1\0\1\11\1\0"+
|
||||
"\1\11\2\0\2\11\1\0\4\11\1\12\2\11\6\12\1\0\2\12"+
|
||||
"\1\11\2\0\5\11\1\0\1\11\1\0\6\12\2\0\12\3\2\0"+
|
||||
"\2\11\42\0\1\1\27\0\2\2\6\0\12\3\13\0\1\2\1\0"+
|
||||
"\1\2\1\0\1\2\4\0\2\2\10\1\1\0\44\1\4\0\24\2"+
|
||||
"\1\0\2\2\4\1\4\0\10\2\1\0\44\2\11\0\1\2\71\0"+
|
||||
"\53\11\24\12\1\11\12\3\6\0\6\11\4\12\4\11\3\12\1\11"+
|
||||
"\3\12\2\11\7\12\3\11\4\12\15\11\14\12\1\11\1\12\12\3"+
|
||||
"\4\12\2\11\46\1\12\0\53\1\1\0\1\1\3\0\u0149\1\1\0"+
|
||||
"\4\1\2\0\7\1\1\0\1\1\1\0\4\1\2\0\51\1\1\0"+
|
||||
"\4\1\2\0\41\1\1\0\4\1\2\0\7\1\1\0\1\1\1\0"+
|
||||
"\4\1\2\0\17\1\1\0\71\1\1\0\4\1\2\0\103\1\4\0"+
|
||||
"\1\2\40\0\20\1\20\0\125\1\14\0\u026c\1\2\0\21\1\1\0"+
|
||||
"\32\1\5\0\113\1\3\0\3\1\17\0\15\1\1\0\4\1\3\2"+
|
||||
"\13\0\22\1\3\2\13\0\22\1\2\2\14\0\15\1\1\0\3\1"+
|
||||
"\1\0\2\2\14\0\64\11\40\12\3\0\1\11\4\0\1\11\1\12"+
|
||||
"\2\0\12\3\41\0\3\2\2\0\12\3\6\0\130\1\10\0\51\1"+
|
||||
"\1\2\1\1\5\0\106\1\12\0\35\1\3\0\14\2\4\0\14\2"+
|
||||
"\12\0\12\3\36\11\2\0\5\11\13\0\54\11\4\0\21\12\7\11"+
|
||||
"\2\12\6\0\13\3\3\0\2\11\40\0\27\1\5\2\4\0\65\11"+
|
||||
"\12\12\1\0\35\12\2\0\1\2\12\3\6\0\12\3\6\0\16\11"+
|
||||
"\122\0\5\2\57\1\21\2\7\1\4\0\12\3\21\0\11\2\14\0"+
|
||||
"\3\2\36\1\12\2\3\0\2\1\12\3\106\0\44\1\24\2\10\0"+
|
||||
"\12\3\3\0\3\1\12\3\44\1\122\0\3\2\1\0\25\2\4\1"+
|
||||
"\1\2\4\1\1\2\15\0\300\1\47\2\26\0\3\2\u0116\1\2\0"+
|
||||
"\6\1\2\0\46\1\2\0\6\1\2\0\10\1\1\0\1\1\1\0"+
|
||||
"\1\1\1\0\1\1\1\0\37\1\2\0\65\1\1\0\7\1\1\0"+
|
||||
"\1\1\3\0\3\1\1\0\7\1\3\0\4\1\2\0\6\1\4\0"+
|
||||
"\15\1\5\0\3\1\1\0\7\1\17\0\4\2\10\0\2\7\12\0"+
|
||||
"\1\7\2\0\1\5\2\0\5\2\20\0\2\10\3\0\1\6\17\0"+
|
||||
"\1\10\13\0\5\2\5\0\6\2\1\0\1\1\15\0\1\1\20\0"+
|
||||
"\5\1\73\0\41\2\21\0\1\1\4\0\1\1\2\0\12\1\1\0"+
|
||||
"\1\1\3\0\5\1\6\0\1\1\1\0\1\1\1\0\1\1\1\0"+
|
||||
"\4\1\1\0\13\1\2\0\4\1\5\0\5\1\4\0\1\1\21\0"+
|
||||
"\51\1\u032d\0\64\1\u0716\0\57\1\1\0\57\1\1\0\205\1\6\0"+
|
||||
"\4\1\3\2\16\0\46\1\12\0\66\1\11\0\1\1\20\0\27\1"+
|
||||
"\11\0\7\1\1\0\7\1\1\0\7\1\1\0\7\1\1\0\7\1"+
|
||||
"\1\0\7\1\1\0\7\1\1\0\7\1\1\0\40\2\57\0\1\1"+
|
||||
"\120\0\32\13\1\0\131\13\14\0\326\13\57\0\1\1\1\0\1\13"+
|
||||
"\31\0\11\13\6\2\1\0\5\4\2\0\3\13\1\1\1\1\4\0"+
|
||||
"\126\14\2\0\2\2\2\4\3\14\133\4\1\0\4\4\5\0\51\1"+
|
||||
"\3\0\136\1\21\0\30\1\70\0\20\4\320\0\57\4\1\0\130\4"+
|
||||
"\250\0\u19b6\13\112\0\u51cc\13\64\0\u048d\1\103\0\56\1\2\0\u010d\1"+
|
||||
"\3\0\20\1\12\3\2\1\24\0\40\1\2\0\15\1\4\2\11\0"+
|
||||
"\2\2\1\0\31\1\10\0\120\1\2\2\45\0\11\1\2\0\147\1"+
|
||||
"\2\0\2\1\156\0\7\1\1\2\3\1\1\2\4\1\1\2\27\1"+
|
||||
"\5\2\30\0\64\1\14\0\2\2\62\1\21\2\13\0\12\3\6\0"+
|
||||
"\22\2\6\1\3\0\1\1\4\0\12\3\34\1\10\2\2\0\27\1"+
|
||||
"\15\2\14\0\35\1\3\0\4\2\57\1\16\2\16\0\1\1\12\3"+
|
||||
"\46\0\51\1\16\2\11\0\3\1\1\2\10\1\2\2\2\0\12\3"+
|
||||
"\6\0\33\11\1\12\4\0\60\11\1\12\1\11\3\12\2\11\2\12"+
|
||||
"\5\11\2\12\1\11\1\12\1\11\30\0\5\11\340\0\43\1\10\2"+
|
||||
"\1\0\2\2\2\0\12\3\6\0\u2ba4\1\14\0\27\1\4\0\61\1"+
|
||||
"\u2104\0\u012e\13\2\0\76\13\2\0\152\13\46\0\7\1\14\0\5\1"+
|
||||
"\5\0\1\1\1\2\12\1\1\0\15\1\1\0\5\1\1\0\1\1"+
|
||||
"\1\0\2\1\1\0\2\1\1\0\154\1\41\0\u016b\1\22\0\100\1"+
|
||||
"\2\0\66\1\50\0\14\1\4\0\20\2\1\6\2\0\1\5\1\6"+
|
||||
"\13\0\7\2\14\0\2\10\30\0\3\10\1\6\1\0\1\7\1\0"+
|
||||
"\1\6\1\5\32\0\5\1\1\0\207\1\2\0\1\2\7\0\1\7"+
|
||||
"\4\0\1\6\1\0\1\7\1\0\12\3\1\5\1\6\5\0\32\1"+
|
||||
"\4\0\1\10\1\0\32\1\13\0\70\4\2\2\37\1\3\0\6\1"+
|
||||
"\2\0\6\1\2\0\6\1\2\0\3\1\34\0\3\2\4\0";
|
||||
"\2\0\13\2\5\0\53\1\25\2\12\3\1\0\1\3\1\6\1\0"+
|
||||
"\2\1\1\2\143\1\1\0\1\1\10\2\1\0\6\2\2\1\2\2"+
|
||||
"\1\0\4\2\2\1\12\3\3\1\2\0\1\1\17\0\1\2\1\1"+
|
||||
"\1\2\36\1\33\2\2\0\131\1\13\2\1\1\16\0\12\3\41\1"+
|
||||
"\11\2\2\1\2\0\1\6\1\0\1\1\5\0\26\1\4\2\1\1"+
|
||||
"\11\2\1\1\3\2\1\1\5\2\22\0\31\1\3\2\244\0\4\2"+
|
||||
"\66\1\3\2\1\1\22\2\1\1\7\2\12\1\2\2\2\0\12\3"+
|
||||
"\1\0\7\1\1\0\7\1\1\0\3\2\1\0\10\1\2\0\2\1"+
|
||||
"\2\0\26\1\1\0\7\1\1\0\1\1\3\0\4\1\2\0\1\2"+
|
||||
"\1\1\7\2\2\0\2\2\2\0\3\2\1\1\10\0\1\2\4\0"+
|
||||
"\2\1\1\0\3\1\2\2\2\0\12\3\2\1\17\0\3\2\1\0"+
|
||||
"\6\1\4\0\2\1\2\0\26\1\1\0\7\1\1\0\2\1\1\0"+
|
||||
"\2\1\1\0\2\1\2\0\1\2\1\0\5\2\4\0\2\2\2\0"+
|
||||
"\3\2\3\0\1\2\7\0\4\1\1\0\1\1\7\0\12\3\2\2"+
|
||||
"\3\1\1\2\13\0\3\2\1\0\11\1\1\0\3\1\1\0\26\1"+
|
||||
"\1\0\7\1\1\0\2\1\1\0\5\1\2\0\1\2\1\1\10\2"+
|
||||
"\1\0\3\2\1\0\3\2\2\0\1\1\17\0\2\1\2\2\2\0"+
|
||||
"\12\3\21\0\3\2\1\0\10\1\2\0\2\1\2\0\26\1\1\0"+
|
||||
"\7\1\1\0\2\1\1\0\5\1\2\0\1\2\1\1\7\2\2\0"+
|
||||
"\2\2\2\0\3\2\10\0\2\2\4\0\2\1\1\0\3\1\2\2"+
|
||||
"\2\0\12\3\1\0\1\1\20\0\1\2\1\1\1\0\6\1\3\0"+
|
||||
"\3\1\1\0\4\1\3\0\2\1\1\0\1\1\1\0\2\1\3\0"+
|
||||
"\2\1\3\0\3\1\3\0\14\1\4\0\5\2\3\0\3\2\1\0"+
|
||||
"\4\2\2\0\1\1\6\0\1\2\16\0\12\3\21\0\3\2\1\0"+
|
||||
"\10\1\1\0\3\1\1\0\27\1\1\0\12\1\1\0\5\1\3\0"+
|
||||
"\1\1\7\2\1\0\3\2\1\0\4\2\7\0\2\2\1\0\2\1"+
|
||||
"\6\0\2\1\2\2\2\0\12\3\22\0\2\2\1\0\10\1\1\0"+
|
||||
"\3\1\1\0\27\1\1\0\12\1\1\0\5\1\2\0\1\2\1\1"+
|
||||
"\7\2\1\0\3\2\1\0\4\2\7\0\2\2\7\0\1\1\1\0"+
|
||||
"\2\1\2\2\2\0\12\3\1\0\2\1\17\0\2\2\1\0\10\1"+
|
||||
"\1\0\3\1\1\0\51\1\2\0\1\1\7\2\1\0\3\2\1\0"+
|
||||
"\4\2\1\1\10\0\1\2\10\0\2\1\2\2\2\0\12\3\12\0"+
|
||||
"\6\1\2\0\2\2\1\0\22\1\3\0\30\1\1\0\11\1\1\0"+
|
||||
"\1\1\2\0\7\1\3\0\1\2\4\0\6\2\1\0\1\2\1\0"+
|
||||
"\10\2\22\0\2\2\15\0\60\11\1\12\2\11\7\12\5\0\7\11"+
|
||||
"\10\12\1\0\12\3\47\0\2\11\1\0\1\11\2\0\2\11\1\0"+
|
||||
"\1\11\2\0\1\11\6\0\4\11\1\0\7\11\1\0\3\11\1\0"+
|
||||
"\1\11\1\0\1\11\2\0\2\11\1\0\4\11\1\12\2\11\6\12"+
|
||||
"\1\0\2\12\1\11\2\0\5\11\1\0\1\11\1\0\6\12\2\0"+
|
||||
"\12\3\2\0\2\11\42\0\1\1\27\0\2\2\6\0\12\3\13\0"+
|
||||
"\1\2\1\0\1\2\1\0\1\2\4\0\2\2\10\1\1\0\44\1"+
|
||||
"\4\0\24\2\1\0\2\2\5\1\13\2\1\0\44\2\11\0\1\2"+
|
||||
"\71\0\53\11\24\12\1\11\12\3\6\0\6\11\4\12\4\11\3\12"+
|
||||
"\1\11\3\12\2\11\7\12\3\11\4\12\15\11\14\12\1\11\1\12"+
|
||||
"\12\3\4\12\2\11\46\1\12\0\53\1\1\0\1\1\3\0\u0149\1"+
|
||||
"\1\0\4\1\2\0\7\1\1\0\1\1\1\0\4\1\2\0\51\1"+
|
||||
"\1\0\4\1\2\0\41\1\1\0\4\1\2\0\7\1\1\0\1\1"+
|
||||
"\1\0\4\1\2\0\17\1\1\0\71\1\1\0\4\1\2\0\103\1"+
|
||||
"\2\0\3\2\40\0\20\1\20\0\125\1\14\0\u026c\1\2\0\21\1"+
|
||||
"\1\0\32\1\5\0\113\1\3\0\3\1\17\0\15\1\1\0\4\1"+
|
||||
"\3\2\13\0\22\1\3\2\13\0\22\1\2\2\14\0\15\1\1\0"+
|
||||
"\3\1\1\0\2\2\14\0\64\11\40\12\3\0\1\11\4\0\1\11"+
|
||||
"\1\12\2\0\12\3\41\0\3\2\2\0\12\3\6\0\130\1\10\0"+
|
||||
"\51\1\1\2\1\1\5\0\106\1\12\0\35\1\3\0\14\2\4\0"+
|
||||
"\14\2\12\0\12\3\36\11\2\0\5\11\13\0\54\11\4\0\21\12"+
|
||||
"\7\11\2\12\6\0\12\3\1\11\3\0\2\11\40\0\27\1\5\2"+
|
||||
"\4\0\65\11\12\12\1\0\35\12\2\0\1\2\12\3\6\0\12\3"+
|
||||
"\6\0\16\11\122\0\5\2\57\1\21\2\7\1\4\0\12\3\21\0"+
|
||||
"\11\2\14\0\3\2\36\1\12\2\3\0\2\1\12\3\6\0\46\1"+
|
||||
"\16\2\14\0\44\1\24\2\10\0\12\3\3\0\3\1\12\3\44\1"+
|
||||
"\122\0\3\2\1\0\25\2\4\1\1\2\4\1\1\2\15\0\300\1"+
|
||||
"\47\2\25\0\4\2\u0116\1\2\0\6\1\2\0\46\1\2\0\6\1"+
|
||||
"\2\0\10\1\1\0\1\1\1\0\1\1\1\0\1\1\1\0\37\1"+
|
||||
"\2\0\65\1\1\0\7\1\1\0\1\1\3\0\3\1\1\0\7\1"+
|
||||
"\3\0\4\1\2\0\6\1\4\0\15\1\5\0\3\1\1\0\7\1"+
|
||||
"\17\0\4\2\10\0\2\7\12\0\1\7\2\0\1\5\2\0\5\2"+
|
||||
"\20\0\2\10\3\0\1\6\17\0\1\10\13\0\5\2\5\0\6\2"+
|
||||
"\1\0\1\1\15\0\1\1\20\0\15\1\63\0\41\2\21\0\1\1"+
|
||||
"\4\0\1\1\2\0\12\1\1\0\1\1\3\0\5\1\6\0\1\1"+
|
||||
"\1\0\1\1\1\0\1\1\1\0\4\1\1\0\13\1\2\0\4\1"+
|
||||
"\5\0\5\1\4\0\1\1\21\0\51\1\u032d\0\64\1\u0716\0\57\1"+
|
||||
"\1\0\57\1\1\0\205\1\6\0\4\1\3\2\16\0\46\1\12\0"+
|
||||
"\66\1\11\0\1\1\17\0\1\2\27\1\11\0\7\1\1\0\7\1"+
|
||||
"\1\0\7\1\1\0\7\1\1\0\7\1\1\0\7\1\1\0\7\1"+
|
||||
"\1\0\7\1\1\0\40\2\57\0\1\1\120\0\32\13\1\0\131\13"+
|
||||
"\14\0\326\13\57\0\1\1\1\0\1\13\31\0\11\13\6\2\1\0"+
|
||||
"\5\4\2\0\3\13\1\1\1\1\4\0\126\14\2\0\2\2\2\4"+
|
||||
"\3\14\133\4\1\0\4\4\5\0\51\1\3\0\136\1\21\0\33\1"+
|
||||
"\65\0\20\4\320\0\57\4\1\0\130\4\250\0\u19b6\13\112\0\u51cc\13"+
|
||||
"\64\0\u048d\1\103\0\56\1\2\0\u010d\1\3\0\20\1\12\3\2\1"+
|
||||
"\24\0\57\1\4\2\11\0\2\2\1\0\31\1\10\0\120\1\2\2"+
|
||||
"\45\0\11\1\2\0\147\1\2\0\4\1\1\0\2\1\16\0\12\1"+
|
||||
"\120\0\10\1\1\2\3\1\1\2\4\1\1\2\27\1\5\2\30\0"+
|
||||
"\64\1\14\0\2\2\62\1\21\2\13\0\12\3\6\0\22\2\6\1"+
|
||||
"\3\0\1\1\4\0\12\3\34\1\10\2\2\0\27\1\15\2\14\0"+
|
||||
"\35\1\3\0\4\2\57\1\16\2\16\0\1\1\12\3\46\0\51\1"+
|
||||
"\16\2\11\0\3\1\1\2\10\1\2\2\2\0\12\3\6\0\33\11"+
|
||||
"\1\12\4\0\60\11\1\12\1\11\3\12\2\11\2\12\5\11\2\12"+
|
||||
"\1\11\1\12\1\11\30\0\5\11\41\0\6\1\2\0\6\1\2\0"+
|
||||
"\6\1\11\0\7\1\1\0\7\1\221\0\43\1\10\2\1\0\2\2"+
|
||||
"\2\0\12\3\6\0\u2ba4\1\14\0\27\1\4\0\61\1\u2104\0\u012e\13"+
|
||||
"\2\0\76\13\2\0\152\13\46\0\7\1\14\0\5\1\5\0\1\1"+
|
||||
"\1\2\12\1\1\0\15\1\1\0\5\1\1\0\1\1\1\0\2\1"+
|
||||
"\1\0\2\1\1\0\154\1\41\0\u016b\1\22\0\100\1\2\0\66\1"+
|
||||
"\50\0\14\1\4\0\20\2\1\6\2\0\1\5\1\6\13\0\7\2"+
|
||||
"\14\0\2\10\30\0\3\10\1\6\1\0\1\7\1\0\1\6\1\5"+
|
||||
"\32\0\5\1\1\0\207\1\2\0\1\2\7\0\1\7\4\0\1\6"+
|
||||
"\1\0\1\7\1\0\12\3\1\5\1\6\5\0\32\1\4\0\1\10"+
|
||||
"\1\0\32\1\13\0\70\4\2\2\37\1\3\0\6\1\2\0\6\1"+
|
||||
"\2\0\6\1\2\0\3\1\34\0\3\2\4\0";
|
||||
|
||||
/**
|
||||
* Translates characters to character classes
|
||||
|
@ -530,7 +532,7 @@ public final class UAX29Tokenizer extends Tokenizer {
|
|||
char [] map = new char[0x10000];
|
||||
int i = 0; /* index in packed string */
|
||||
int j = 0; /* index in unpacked array */
|
||||
while (i < 2138) {
|
||||
while (i < 2174) {
|
||||
int count = packed.charAt(i++);
|
||||
char value = packed.charAt(i++);
|
||||
do map[j++] = value; while (--count > 0);
|
||||
|
@ -803,28 +805,28 @@ public final class UAX29Tokenizer extends Tokenizer {
|
|||
zzMarkedPos = zzMarkedPosL;
|
||||
|
||||
switch (zzAction < 0 ? zzAction : ZZ_ACTION[zzAction]) {
|
||||
case 2:
|
||||
{ if (populateAttributes(WORD_TYPE)) return true;
|
||||
}
|
||||
case 7: break;
|
||||
case 6:
|
||||
{ if (populateAttributes(HIRAGANA_TYPE)) return true;
|
||||
}
|
||||
case 8: break;
|
||||
case 5:
|
||||
{ if (populateAttributes(IDEOGRAPHIC_TYPE)) return true;
|
||||
}
|
||||
case 9: break;
|
||||
case 4:
|
||||
{ if (populateAttributes(SOUTH_EAST_ASIAN_TYPE)) return true;
|
||||
case 7: break;
|
||||
case 1:
|
||||
{ /* Not numeric, word, ideographic, hiragana, or SE Asian -- ignore it. */
|
||||
}
|
||||
case 10: break;
|
||||
case 8: break;
|
||||
case 3:
|
||||
{ if (populateAttributes(NUMERIC_TYPE)) return true;
|
||||
}
|
||||
case 9: break;
|
||||
case 6:
|
||||
{ if (populateAttributes(HIRAGANA_TYPE)) return true;
|
||||
}
|
||||
case 10: break;
|
||||
case 4:
|
||||
{ if (populateAttributes(SOUTH_EAST_ASIAN_TYPE)) return true;
|
||||
}
|
||||
case 11: break;
|
||||
case 1:
|
||||
{ /* Not numeric, word, ideographic, hiragana, or SE Asian -- ignore it. */
|
||||
case 2:
|
||||
{ if (populateAttributes(WORD_TYPE)) return true;
|
||||
}
|
||||
case 12: break;
|
||||
default:
|
||||
|
|
|
@ -53,7 +53,7 @@ import org.apache.lucene.util.AttributeSource;
|
|||
*/
|
||||
%%
|
||||
|
||||
%unicode 5.2
|
||||
%unicode 6.0
|
||||
%final
|
||||
%public
|
||||
%apiprivate
|
||||
|
@ -247,7 +247,7 @@ ExtendNumLetEx = \p{WB:ExtendNumLet} [\p{WB:Format}\p{WB:Extend}]
|
|||
// annex. That means that satisfactory treatment of languages like Chinese
|
||||
// or Thai requires special handling.
|
||||
//
|
||||
// In Unicode 5.2, only one character has the \p{Line_Break = Contingent_Break}
|
||||
// In Unicode 6.0, only one character has the \p{Line_Break = Contingent_Break}
|
||||
// property: U+FFFC (  ) OBJECT REPLACEMENT CHARACTER.
|
||||
//
|
||||
// In the ICU implementation of UAX#29, \p{Line_Break = Complex_Context}
|
||||
|
|
|
@ -394,7 +394,7 @@ public class TestStandardAnalyzer extends BaseTokenStreamTestCase {
|
|||
}
|
||||
|
||||
public void testUnicodeWordBreaks() throws Exception {
|
||||
WordBreakTestUnicode_5_2_0 wordBreakTest = new WordBreakTestUnicode_5_2_0();
|
||||
WordBreakTestUnicode_6_0_0 wordBreakTest = new WordBreakTestUnicode_6_0_0();
|
||||
wordBreakTest.test(a);
|
||||
}
|
||||
}
|
||||
|
|
|
@ -198,7 +198,7 @@ public class TestUAX29Tokenizer extends BaseTokenStreamTestCase {
|
|||
}
|
||||
|
||||
public void testUnicodeWordBreaks() throws Exception {
|
||||
WordBreakTestUnicode_5_2_0 wordBreakTest = new WordBreakTestUnicode_5_2_0();
|
||||
WordBreakTestUnicode_6_0_0 wordBreakTest = new WordBreakTestUnicode_6_0_0();
|
||||
wordBreakTest.test(a);
|
||||
}
|
||||
}
|
||||
|
|
|
@ -23,7 +23,7 @@ import org.junit.Ignore;
|
|||
|
||||
/**
|
||||
* This class was automatically generated by generateJavaUnicodeWordBreakTest.pl
|
||||
* from: http://www.unicode.org/Public/5.2.0/ucd/auxiliary/WordBreakTest.txt
|
||||
* from: http://www.unicode.org/Public/6.0.0/ucd/auxiliary/WordBreakTest.txt
|
||||
*
|
||||
* WordBreakTest.txt indicates the points in the provided character sequences
|
||||
* at which conforming implementations must and must not break words. This
|
||||
|
@ -32,16 +32,16 @@ import org.junit.Ignore;
|
|||
* sequences bounded by word breaks and containing at least one character
|
||||
* from one of the following character sets:
|
||||
*
|
||||
* \p{Script = Han} (From http://www.unicode.org/Public/5.2.0/ucd/Scripts.txt)
|
||||
* \p{Script = Han} (From http://www.unicode.org/Public/6.0.0/ucd/Scripts.txt)
|
||||
* \p{Script = Hiragana}
|
||||
* \p{LineBreak = Complex_Context} (From http://www.unicode.org/Public/5.2.0/ucd/LineBreak.txt)
|
||||
* \p{WordBreak = ALetter} (From http://www.unicode.org/Public/5.2.0/ucd/auxiliary/WordBreakProperty.txt)
|
||||
* \p{LineBreak = Complex_Context} (From http://www.unicode.org/Public/6.0.0/ucd/LineBreak.txt)
|
||||
* \p{WordBreak = ALetter} (From http://www.unicode.org/Public/6.0.0/ucd/auxiliary/WordBreakProperty.txt)
|
||||
* \p{WordBreak = Katakana}
|
||||
* \p{WordBreak = Numeric} (Excludes full-width Arabic digits)
|
||||
* [\uFF10-\uFF19] (Full-width Arabic digits)
|
||||
*/
|
||||
@Ignore
|
||||
public class WordBreakTestUnicode_5_2_0 extends BaseTokenStreamTestCase {
|
||||
public class WordBreakTestUnicode_6_0_0 extends BaseTokenStreamTestCase {
|
||||
|
||||
public void test(Analyzer analyzer) throws Exception {
|
||||
// ÷ 0001 ÷ 0001 ÷ # ÷ [0.2] <START OF HEADING> (Other) ÷ [999.0] <START OF HEADING> (Other) ÷ [0.3]
|
|
@ -61,6 +61,7 @@ package org.apache.lucene.analysis.core;
|
|||
|
||||
import org.apache.lucene.analysis.Analyzer;
|
||||
import org.apache.lucene.analysis.BaseTokenStreamTestCase;
|
||||
import org.junit.Ignore;
|
||||
|
||||
/**
|
||||
* This class was automatically generated by ${script_name}
|
||||
|
@ -81,6 +82,7 @@ import org.apache.lucene.analysis.BaseTokenStreamTestCase;
|
|||
* \\p{WordBreak = Numeric} (Excludes full-width Arabic digits)
|
||||
* [\\uFF10-\\uFF19] (Full-width Arabic digits)
|
||||
*/
|
||||
\@Ignore
|
||||
public class ${class_name} extends BaseTokenStreamTestCase {
|
||||
|
||||
public void test(Analyzer analyzer) throws Exception {
|
||||
|
|
Loading…
Reference in New Issue