Convert and cleanup the test files to UTF-8. What is still broken is the incorrect usage of KOI8 and CP1251 encodings. Added svn:eol-style=native to all files again.

git-svn-id: https://svn.apache.org/repos/asf/lucene/java/trunk@791483 13f79535-47bb-0310-9956-ffa450edef68
This commit is contained in:
Uwe Schindler 2009-07-06 13:50:17 +00:00
parent 6a3752feb8
commit 705f099238
10 changed files with 99357 additions and 8 deletions

View File

@ -62,13 +62,13 @@ public class TestRussianAnalyzer extends TestCase
RussianAnalyzer ra = new RussianAnalyzer(RussianCharsets.UnicodeRussian);
inWords =
new InputStreamReader(
new FileInputStream(new File(dataDir, "/org/apache/lucene/analysis/ru/testUnicode.txt")),
"Unicode");
new FileInputStream(new File(dataDir, "/org/apache/lucene/analysis/ru/testUTF8.txt")),
"UTF-8");
sampleUnicode =
new InputStreamReader(
new FileInputStream(new File(dataDir, "/org/apache/lucene/analysis/ru/resUnicode.htm")),
"Unicode");
new FileInputStream(new File(dataDir, "/org/apache/lucene/analysis/ru/resUTF8.htm")),
"UTF-8");
TokenStream in = ra.tokenStream("all", inWords);

View File

@ -50,8 +50,8 @@ public class TestRussianStem extends TestCase
BufferedReader inWords =
new BufferedReader(
new InputStreamReader(
new FileInputStream(new File(dataDir, "/org/apache/lucene/analysis/ru/wordsUnicode.txt")),
"Unicode"));
new FileInputStream(new File(dataDir, "/org/apache/lucene/analysis/ru/wordsUTF8.txt")),
"UTF-8"));
while ((str = inWords.readLine()) != null)
{
words.add(str);
@ -62,8 +62,8 @@ public class TestRussianStem extends TestCase
BufferedReader inStems =
new BufferedReader(
new InputStreamReader(
new FileInputStream(new File(dataDir, "/org/apache/lucene/analysis/ru/stemsUnicode.txt")),
"Unicode"));
new FileInputStream(new File(dataDir, "/org/apache/lucene/analysis/ru/stemsUTF8.txt")),
"UTF-8"));
while ((str = inStems.readLine()) != null)
{
stems.add(str);

View File

@ -0,0 +1 @@
[вмест][сил][электромагнитн][энерг][имел][представлен][скаж][жрец][древн][египт][знан][хран][тайн][узк][круг][посвящен][всяк][времен][виток][прин][соб][нов][технолог][сам][дел][раскрыва][потаен][знан][прежн][век][говор][нов][информац][станов][доступн][широк][круг][пользовател][тех][случа][сознан][обществ][готов][восприня][воспользова]

File diff suppressed because it is too large Load Diff

View File

@ -0,0 +1,2 @@
Вместе с тем о силе электромагнитной энергии имели представление еще, скажем, жрецы Древнего Египта. Но знание это хранилось в тайне, в
узком кругу посвященных. Всякий временной виток, принося с собой новые технологии, на самом деле раскрывает потаенное знание прежних веков. Мы уже говорили, что новая информация становится доступной широкому кругу пользователей только в тех случаях, когда сознание общества готово ее воспринять и воспользоваться ею.

File diff suppressed because it is too large Load Diff