home > algorithm > baekjoon > [baekjoon] 영단어 암기는 괴로워 (백준 20920 java 풀이)

[baekjoon] 영단어 암기는 괴로워 (백준 20920 java 풀이)
algorithm baekjoon step20

intro : 정렬은 항상 고려할게 많아서 어렵다. 정렬 방법과 종류도 너무많고.. 따로 내용을 정리할 Chapter가 필요할정도다.

백준 문제링크

문제

화은이는 이번 영어 시험에서 틀린 문제를 바탕으로 영어 단어 암기를 하려고 한다. 그 과정에서 효율적으로 영어 단어를 외우기 위해 영어 단어장을 만들려 하고 있다. 화은이가 만들고자 하는 단어장의 단어 순서는 다음과 같은 우선순위를 차례로 적용하여 만들어진다.자주 나오는 단어일수록 앞에 배치한다. 해당 단어의 길이가 길수록 앞에 배치한다. 알파벳 사전 순으로 앞에 있는 단어일수록 앞에 배치한다. M보다 짧은 길이의 단어의 경우 읽는 것만으로도 외울 수 있기 때문에 길이가 M이상인 단어들만 외운다고 한다. 화은이가 괴로운 영단어 암기를 효율적으로 할 수 있도록 단어장을 만들어 주자.

입력

첫째 줄에는 영어 지문에 나오는 단어의 개수 N과 외울 단어의 길이 기준이 되는 M이 공백으로 구분되어 주어진다. (1 <= N <= 100,000, 1 <= M <= 10) 둘째 줄부터 N+1번째 줄까지 외울 단어를 입력받는다. 이때의 입력은 알파벳 소문자로만 주어지며 단어의 길이는 10을 넘지 않는다. 단어장에 단어가 반드시 1개 이상 존재하는 입력만 주어진다.

출력

화은이의 단어장에 들어 있는 단어를 단어장의 앞에 위치한 단어부터 한 줄에 한 단어씩 순서대로 출력한다.

문제 풀이 (700ms)

import java.io.*;
import java.util.*;

public class Main {
    public static void main(String[] args) throws IOException {
        // 입출력을 위한 BufferedReader, BufferedWriter, StringBuilder 객체 생성
        BufferedReader br = new BufferedReader(new InputStreamReader(System.in));
        BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(System.out));
        StringBuilder sb = new StringBuilder();
        // 공백을 기준으로 자르기 위한 StringTokenizer 객체 사용
        StringTokenizer st = new StringTokenizer(br.readLine());
        // 입력값의 개수
        int forCount = Integer.parseInt(st.nextToken());
        // 입력받아야 하는 단어의 길이 최소값
        int minLength = Integer.parseInt(st.nextToken());

        // 최빈값을 보관하기 위한 자료구조 Map 사용
        Map<String, Integer> map = new HashMap<>();
        for (int i = 0; i < forCount; i++) {
            String input = br.readLine();
            // 최소 길이 이상의 단어만 빈도수를 증가시키며 map 변수에 담음
            if (input.length() >= minLength) {
                map.put(input, map.getOrDefault(input, 0) + 1);
            }
        }

        // 출력값은 중복을 제거한 단어의 값이기에, map 의 키값을 통해 정렬진행
        List<String> list = new ArrayList<>(map.keySet());
        list.sort((o1, o2) -> {
            Integer first = map.get(o1);
            Integer second = map.get(o2);
            // 자주 나오는 단어일수록 앞에 배치한다.
            if (!Objects.equals(first, second)) {
                // 앞에 배치한다는 말은 내림차순 정렬을 한다는 말과 같음
                // 만약 return first - second 인 경우는 오름차순 정렬과 같음
                return second - first;
            }
            // 해당 단어의 길이가 길수록 앞에 배치한다.
            if (o1.length() != o2.length()) {
                // 위 주석과 같은 의미를 가지고 있음
                return o2.length() - o1.length();
            }
            // 알파벳 사전 순으로 앞에 있는 단어일수록 앞에 배치한다
            // String은 Comparable 인터페이스를 구현하고 있음
            // 제공되는 사전순 정렬 메서드 compareTo를 사용가능
            return o1.compareTo(o2);
        });

        // 정렬된 key 값을 StringBuilder 에 저장
        for (String l : list) {
            sb.append(l).append("\n");
        }

        // bw로 출력하기 위해 문자열로 변환 후 write
        bw.write(sb.toString());
        bw.flush();
        // 자원 반납
        bw.close();
        br.close();
    }
}

문제 해석

정렬문제는 항상 손이 많이가는 편인데, 해당 문제는 사용자 정의 정렬을 구현할수 있냐를 물어보는 문제인거 같다는 생각이 들었다. 문제에서 직관적으로 정렬 조건을 명확하게 주어졌는데, 자주 나오는 단어일수록 앞에 배치, 해당 단어의 길이가 길수록 앞에 배치, 알파벳 사전 순으로 앞에 있는 단어일수록 앞에 배치. 결국 이 세가지 정렬 조건을 코드로 구현할 수 있냐를 물어보는 것이다. 너무 별거 아닌거라서 가장 첫번째 조건을 누락할뻔했는데 M이상인 단어들만 외운다 까지 포함해야한다.

부가 조건

주어지는 M 이상의 단어만 입력값으로 받아야함.

정렬 조건 정리

자주 나오는 단어일수록 앞에 배치 : 빈도수를 계산해서 내림차순 정렬을 진행해야한다.
해당 단어의 길이가 길수록 앞에 배치 : 단어의 길이를 계산해서 내림차순 정렬을 진행해야한다.
알파벳 사전 순으로 앞에 있는 단어일수록 앞에 배치 : String Class의 CompareTo를 사용하자.

Map을 사용한 이유

첫번째 정렬조건인 자주 나오는 단어일수록 앞에 배치의 말 뜻은 빈도수를 계산 해야한다는 말이다. 여기서 빈도수는 단어가 입려값으로 몇번이나 나오는가? 를 물어보는것과 같다. 그렇다면 다양한 자료구조를 통해서 빈도수를 계산할 수 있는데, 출력값 예제를 확인해보면 중복된 값은 출력하지 않고 있다. 왜냐하면 외워야하는 단어를 목록을 만들어서 출력하는것이기에 중복된 단어를 포함할 이유가 없다. 또한 두번째 정렬 기준인 단어의 길이를 가지고 정렬조건을 사용하기 위해선 어떤 단어인지를 알아야하는데 Map<단어, 빈도수> 로 변수를 구성해서 관리하면 쉽게 정렬에서 연산과정을 수행할수 있다. 이하동문으로 알파벳 사전순으로 정렬하기도 2번째 조건에서 연산하는것과 같이 Map의 키값에 CompareTo 메서드를 사용하면 되기에 이 문제에서 Map이 적합한 자료구조 타입이라고 생각이 들었다.

정렬 로직에서 return second - first 와 같은 맥락을 사용한 이유 (자주 나오는 단어, 단어의 길이를 앞에 배치할때 사용한 기준)

보통 사용자 정의 정렬 로직을 구현하는 코드를 찾아보면 다음과 같은 코드 로직을 자주 볼 수 있다. 만약 문자열 길이를 기준으로 오름차순으로 정렬해야한다, 라는 문제가 있다면 다음과 같이 정렬하는 로직을 자주 보곤 한다.

import java.util.Arrays;

public class Main {
    public static void main(String[] args) {
        String[] array = {"a", "b", "c", "ab", "abc", "abed", "addon"};
        // 아래 정렬 기준과 return 값을 집중해보자
        Arrays.sort(array, (o1, o2) -> {
            if (o1.length() < o2.length()) {
                return -1;
            } else if (o1.length() > o2.length()) {
                return 1;
            } else {
                return 0;
            }
        });
        // 배열을 한번에 출력하기 위해 Arrays.toString 메서드 사용
        System.out.println(Arrays.toString(array));
    }
}

// 출력값
// [a, b, c, ab, abc, abed, addon]

위처럼 if문 조건을 통해 첫번째 값과 두번째값의 비교를 통해 어떤값을 return하는가? -1,0,1 에 따라 정렬이 달라진다. 만약 위처럼 오름차순이 아니라 내림차순으로 정렬해야한다면 아래와 같이 return값이 반대로만 적용되면 된다.

import java.util.Arrays;

public class Main {
    public static void main(String[] args) {
        String[] array = {"a", "b", "c", "ab", "abc", "abed", "addon"};
        // 아래 정렬 기준과 return 값을 집중해보자
        Arrays.sort(array, (o1, o2) -> {
            if (o1.length() < o2.length()) {
                return 1;
            } else if (o1.length() > o2.length()) {
                return -1;
            } else {
                return 0;
            }
        });
        // 배열을 한번에 출력하기 위해 Arrays.toString 메서드 사용
        System.out.println(Arrays.toString(array));
    }
}

// 출력값
// [addon, abed, abc, ab, a, b, c]

두개의 차이는 같은 조건이면서도 return 되는값이 -1이냐 0이냐 1이냐에 따라서 정렬이 다르게 적용된다는 것이다. 그말은 다르게 풀이해보자면 return 값은 그저 정렬 알고리즘이 두 값을 비교해 위치를 교환하거나 유지하는지 결정하는데 사용하는 기준 값일 뿐이고 실제로는 음수인 값인지 정수인 값인지만 알면 된다는것이다. 이 말을 이해 했다는 가정하에 다시 return second - first; 에 대해서 확인해보면 만약 second 값이 100인데, first가 50 이라면 양수의 값이 return 된다. 그때 second 값이 앞으로 이동하는데 그 이유는 o1, o2에 대한 비교를 진행시에 만약 first - second를 했고 결과값이 양수라면 first가 뒤로 이동하는게 맞는데, 이건 오름차순 정렬일때 해당하는 말이고, 우리는 출력을 내림차순으로 해야하기에 과정을 반대로 뒤집어서 return second - first; 를 이용해야 우리가 원하는 반대의 결과 즉 내림차순 정렬을 할 수 있음을 알 수 있다.

Integer 클래스에도 String Class 처럼 CompareTo 메서드가 있는데 왜 사용을 안하는가?

먼저 아래코드를 확인해보자, Integer 클래스의 일부 코드를 발췌한 것이다.

public final class Integer extends Number implements Comparable<Integer> {
    
    ...
    ...
    ...

    public int compareTo(Integer anotherInteger) {
        return compare(this.value, anotherInteger.value);
    }

    public static int compare(int x, int y) {
        return (x < y) ? -1 : ((x == y) ? 0 : 1);
    }

    ...
    ...
    ...

}

Integrer 클래스도 String Class 처럼 compareTo 메서드를 제공한다. 그럼에도 불구하고 왜 return second - first; 를 사용했을까? 사실 아주 간단한 이유가 있다. 단순 - 를통한 연산과 내부 메서드를 호출하여 연산 결과를 리턴받는 것과 효율의 관점으로 바라봤을때 당연히 단순 연산이 조금 더 낫다는 판단이 있었다. 메서드를 통해서 풀이를 하는것도 가독성 관점에서 본다면 나쁘찌 않다고 생각하지만, 알고리즘 문제를 푸는 관점에서는 시간복잡도 및 최적의 연산이 가장 우선시 되어야 하기에 단순 - 연산을 통해 코드를 구성했다.

마무리

위 문제를 풀면서 여러 방면으로 고민할 수 있었던 문제였던거 같은데 더 깊게 들어가면 더 깊은 고찰을 해야할거 같아서 이정도로만 정리하고 넘어가고자 한다. 실버4 문제랑 실버3 문제랑 갭차이가 이정도인가 싶은데 갑자기 난이도가 확 올라간 느낌이다.