BAEL-5149 (#11241)

* Init * Removing mvnw files * Apply eclipse code format * Refactoring * Refactoring * BAEL-4211 Add benchmarks * Delete hexagonal directory * Refactoring based on the feedback * Refactoring based on feedback - package rename * Directory rename * BAEL-5149 Remove accents from String in Java * BAEL-5149 Remove accents from String in Java * Including suggestions after a review Co-authored-by: asia <joannakrzeklubowiecka@protonmail.com>
2021-10-17 08:36:43 +02:00 · 2021-10-17 08:36:43 +02:00 · 2f183181d4
commit 2f183181d4
parent 979db86a51
3 changed files with 170 additions and 0 deletions
--- a/core-java-modules/core-java-string-operations-3/src/main/java/com/baeldung/accentsanddiacriticsremoval/StringNormalizer.java
+++ b/core-java-modules/core-java-string-operations-3/src/main/java/com/baeldung/accentsanddiacriticsremoval/StringNormalizer.java
@ -0,0 +1,49 @@
 package com.baeldung.accentsanddiacriticsremoval;
 import org.apache.commons.lang3.StringUtils;
 import java.text.Normalizer;
 import java.util.StringJoiner;
 class StringNormalizer {
    static String removeAccentsWithApacheCommons(String input) {
        return StringUtils.stripAccents(input);
    }
    static String removeAccents(String input) {
        return normalize(input).replaceAll("\\p{M}", "");
    }
    static String unicodeValueOfNormalizedString(String input) {
        return toUnicode(normalize(input));
    }
    private static String normalize(String input) {
        return input == null ? null : Normalizer.normalize(input, Normalizer.Form.NFKD);
    }
    private static String toUnicode(String input) {
        if (input.length() == 1) {
            return toUnicode(input.charAt(0));
        } else {
            StringJoiner stringJoiner = new StringJoiner(" ");
            for (char c : input.toCharArray()) {
                stringJoiner.add(toUnicode(c));
            }
            return stringJoiner.toString();
        }
    }
    private static String toUnicode(char input) {
        String hex = Integer.toHexString(input);
        StringBuilder sb = new StringBuilder(hex);
        while (sb.length() < 4) {
            sb.insert(0, "0");
        }
        sb.insert(0, "\\u");
        return sb.toString();
    }
 }
--- a/core-java-modules/core-java-string-operations-3/src/test/java/com/baeldung/accentsanddiacriticsremoval/CollatorUnitTest.java
+++ b/core-java-modules/core-java-string-operations-3/src/test/java/com/baeldung/accentsanddiacriticsremoval/CollatorUnitTest.java
@ -0,0 +1,70 @@
 package com.baeldung.accentsanddiacriticsremoval;
 import org.junit.Test;
 import org.openjdk.jmh.annotations.Setup;
 import java.text.Collator;
 import static java.lang.Character.*;
 import static java.lang.String.valueOf;
 import static org.junit.Assert.assertEquals;
 public class CollatorUnitTest {
    private final Collator collator = Collator.getInstance();
    @Setup
    public void setup() {
        collator.setDecomposition(2);
    }
    @Test
    public void givenAccentedStringAndPrimaryCollatorStrength_whenCompareWithASCIIString_thenReturnTrue() {
        Collator collator = Collator.getInstance();
        collator.setDecomposition(2);
        collator.setStrength(0);
        assertEquals(0, collator.compare("a", "a"));
        assertEquals(0, collator.compare("ä", "a"));
        assertEquals(0, collator.compare("A", "a"));
        assertEquals(1, collator.compare("b", "a"));
        assertEquals(0, collator.compare(valueOf(toChars(0x0001)), valueOf(toChars(0x0002))));
    }
    @Test
    public void givenAccentedStringAndSecondaryCollatorStrength_whenCompareWithASCIIString_thenReturnTrue() {
        collator.setStrength(1);
        assertEquals(1, collator.compare("ä", "a"));
        assertEquals(1, collator.compare("b", "a"));
        assertEquals(0, collator.compare("A", "a"));
        assertEquals(0, collator.compare("a", "a"));
        assertEquals(0, collator.compare(valueOf(toChars(0x0001)), valueOf(toChars(0x0002))));
    }
    @Test
    public void givenAccentedStringAndTeriaryCollatorStrength_whenCompareWithASCIIString_thenReturnTrue() {
        collator.setStrength(2);
        assertEquals(1, collator.compare("A", "a"));
        assertEquals(1, collator.compare("ä", "a"));
        assertEquals(1, collator.compare("b", "a"));
        assertEquals(0, collator.compare("a", "a"));
        assertEquals(0, collator.compare(valueOf(toChars(0x0001)), valueOf(toChars(0x0002))));
    }
    @Test
    public void givenAccentedStringAndIdenticalCollatorStrength_whenCompareWithASCIIString_thenReturnTrue() {
        collator.setStrength(3);
        assertEquals(1, collator.compare("A", "a"));
        assertEquals(1, collator.compare("ä", "a"));
        assertEquals(1, collator.compare("b", "a"));
        assertEquals(-1, collator.compare(valueOf(toChars(0x0001)), valueOf(toChars(0x0002))));
        assertEquals(0, collator.compare("a", "a"));
    }
    @Test
    public void givenNondecomposableAccentedStringAndIdenticalCollatorStrength_whenCompareWithASCIIString_thenReturnTrue() {
        collator.setStrength(0);
        assertEquals(1, collator.compare("ł", "l"));
        assertEquals(1, collator.compare("ø", "o"));
    }
 }
--- a/core-java-modules/core-java-string-operations-3/src/test/java/com/baeldung/accentsanddiacriticsremoval/StringNormalizerUnitTest.java
+++ b/core-java-modules/core-java-string-operations-3/src/test/java/com/baeldung/accentsanddiacriticsremoval/StringNormalizerUnitTest.java
@ -0,0 +1,51 @@
 package com.baeldung.accentsanddiacriticsremoval;
 import static org.junit.Assert.assertFalse;
 import static org.junit.jupiter.api.Assertions.assertEquals;
 import java.text.Normalizer;
 import org.junit.jupiter.api.Test;
 class StringNormalizerUnitTest {
    @Test
    public void givenNotNormalizedString_whenIsNormalized_thenReturnFalse() {
        assertFalse(Normalizer.isNormalized("āăąēîïĩíĝġńñšŝśûůŷ", Normalizer.Form.NFKD));
    }
    @Test
    void givenStringWithDecomposableUnicodeCharacters_whenRemoveAccents_thenReturnASCIIString() {
        assertEquals("aaaeiiiiggnnsssuuy", StringNormalizer.removeAccents("āăąēîïĩíĝġńñšŝśûůŷ"));
    }
    @Test
    void givenStringWithDecomposableUnicodeCharacters_whenRemoveAccentsWithApacheCommons_thenReturnASCIIString() {
        assertEquals("aaaeiiiiggnnsssuuy", StringNormalizer.removeAccentsWithApacheCommons("āăąēîïĩíĝġńñšŝśûůŷ"));
    }
    @Test
    void givenStringWithNondecomposableUnicodeCharacters_whenRemoveAccents_thenReturnOriginalString() {
        assertEquals("łđħœ", StringNormalizer.removeAccents("łđħœ"));
    }
    @Test
    void givenStringWithNondecomposableUnicodeCharacters_whenRemoveAccentsWithApacheCommons_thenReturnModifiedString() {
        assertEquals("lđħœ", StringNormalizer.removeAccentsWithApacheCommons("łđħœ"));
    }
    @Test
    void givenStringWithDecomposableUnicodeCharacters_whenUnicodeValueOfNormalizedString_thenReturnUnicodeValue() {
        assertEquals("\\u0066 \\u0069", StringNormalizer.unicodeValueOfNormalizedString("ﬁ"));
        assertEquals("\\u0061 \\u0304", StringNormalizer.unicodeValueOfNormalizedString("ā"));
        assertEquals("\\u0069 \\u0308", StringNormalizer.unicodeValueOfNormalizedString("ï"));
        assertEquals("\\u006e \\u0301", StringNormalizer.unicodeValueOfNormalizedString("ń"));
    }
    @Test
    void givenStringWithNonDecomposableUnicodeCharacters_whenUnicodeValueOfNormalizedString_thenReturnOriginalValue() {
        assertEquals("\\u0142", StringNormalizer.unicodeValueOfNormalizedString("ł"));
        assertEquals("\\u0127", StringNormalizer.unicodeValueOfNormalizedString("ħ"));
        assertEquals("\\u0111", StringNormalizer.unicodeValueOfNormalizedString("đ"));
    }
 }