home > algorithm > baekjoon > [baekjoon] 통계학 (백준 2108 java 풀이)

[baekjoon] 통계학 (백준 2108 java 풀이)
algorithm baekjoon step20

intro : 최빈값을 구하는 부분을 염두해야 한다.

백준 문제링크

문제

수를 처리하는 것은 통계학에서 상당히 중요한 일이다. 통계학에서 N개의 수를 대표하는 기본 통계값에는 다음과 같은 것들이 있다. 단, N은 홀수라고 가정하자. 산술평균 : N개의 수들의 합을 N으로 나눈 값, 중앙값 : N개의 수들을 증가하는 순서로 나열했을 경우 그 중앙에 위치하는 값, 최빈값 : N개의 수들 중 가장 많이 나타나는 값, 범위 : N개의 수들 중 최댓값과 최솟값의 차이 N개의 수가 주어졌을 때, 네 가지 기본 통계값을 구하는 프로그램을 작성하시오.

입력

첫째 줄에 수의 개수 N(1 ≤ N ≤ 500,000)이 주어진다. 단, N은 홀수이다. 그 다음 N개의 줄에는 정수들이 주어진다. 입력되는 정수의 절댓값은 4,000을 넘지 않는다.

출력

첫째 줄에는 산술평균을 출력한다. 소수점 이하 첫째 자리에서 반올림한 값을 출력한다. 둘째 줄에는 중앙값을 출력한다. 셋째 줄에는 최빈값을 출력한다. 여러 개 있을 때에는 최빈값 중 두 번째로 작은 값을 출력한다. 넷째 줄에는 범위를 출력한다.

문제 풀이1 (배열 풀이 552ms)

import java.io.*;
import java.util.Arrays;

public class Main {
    public static void main(String[] args) throws IOException {
        // 입출력을 위한 BufferedReader, BufferedWriter, StringBuilder 객체 생성
        BufferedReader br = new BufferedReader(new InputStreamReader(System.in));
        BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(System.out));
        StringBuilder sb = new StringBuilder();

        // 입력값의 개수
        int count = Integer.parseInt(br.readLine());
        // 평균값, 중앙값, 범위 값을 구하기 위해 사용되는 변수
        int[] array = new int[count];
        // 최빈값을 구하기 위해 사용되는 변수, -4000 값이 0번 인덱스 4000 값이 8000번 인덱스
        int[] freq = new int[8001];
        // 최빈값을 1차적으로 구하기 위한 변수
        int maxFreq = 0;
        // 합계를 구하기 위한 변수
        int sum = 0;
        // 반복문을 통해 합계 sum, array, freq (최빈값을 구하기 위한 배열 변수)
        for (int i = 0; i < count; i++) {
            int input = Integer.parseInt(br.readLine());
            sum += input;
            array[i] = input;
            // 여기서 입력되는 값에 대해 각 인덱스에 맞게 값이 증가함
            // 예를들어서 4000 값이 두번 입력되었다면 freq[8000] = 2
            freq[input + 4000]++;
            // 가장 많이 나온 최빈값을 찾기위해서 여기서 먼저 계산해서 값을 가지고 있음
            // 1차로 먼저 값을 구하는 이유는, 최빈값이 동일한 값이 존재할 수 있기에 먼저 계산을 진행
            maxFreq = Math.max(maxFreq, freq[input + 4000]);
        }

        // 배열 정렬 (중앙값을 찾기 위함에 있음)
        Arrays.sort(array);
        // 산술평균 값
        sb.append(Math.round((double) sum / count)).append("\n");
        // 중앙값
        sb.append(array[count / 2]).append("\n");

        // 최빈값 구하는 중요 로직
        int realFreqValue = 0;
        // 첫번째 최빈값을 찾을때 true 로 변경
        boolean flag = false;
        for (int i = 0; i < 8001; i++) {
            if (maxFreq == freq[i]) {
                if (!flag) {
                    // -4000을 하는 이유는 0번 인덱스에 -4000값을 할당하도록 위에서 설정하였기 때문
                    // 실제 값을 계산하기 위해서는 0번인덱스의 값 = i - 4000 
                    realFreqValue = i - 4000;
                    flag = true;
                } else {
                    // flag 가 ture 라는것은 이미 첫번째 최빈값을 찾았고 현재 이 로직으로 들어왔을때가
                    // 두번째로 작은 최빈값이라는 뜻
                    realFreqValue = i - 4000;
                    break;
                }
            }
        }

        // 최빈값 계산
        sb.append(realFreqValue).append("\n");
        // 범위값 계산
        sb.append(array[count - 1] - array[0]).append("\n");
        // bw로 출력하기 위해 문자열로 변환 후 write
        bw.write(sb.toString());
        bw.flush();
        // 자원 반납
        bw.close();
        br.close();
    }
}

문제 해석

이 문제는 마치 4개의 조각난 문제를 하나로 합친? 듯한 느낌이 드는 문제이다. 결국 구해야 하는 값을 정리해보자면 산술평균값, 중앙값, 최빈값, 범위 총 4가지인데 이중 최빈값을 제외한 나머지 값들은 하나의 배열에 값을 순차적으로 입력받고 계산하면 쉽게 풀리는데 이 최빈값 부분이 조건이 까다로웠다. 문제에서 예외적으로 최빈값이 여러개 있을 때는 두번째로 작은 값을 출력하라고 하였는데, 난 처음에는 이 문장을 읽고 오름차순으로 정렬한 배열에서 마지막 인덱스에서 - 1한 값이 두번째로 작은값을 뜻하는 줄 알았다. 뭔가 어떻게 읽냐에 따라서 문제의 해석이 좀 다르게 되는거 같은데 나에게만 해당하는 기분탓 일수도 있다…. 그래서 처음으로 풀었을때는 해당 문제에 대해서 틀렸었다.

산술평균값, 중앙값, 범위는 문제에서 주어진대로 계산을 하면 되는데, 최빈값 만큼은 로직구현이 다들 다르게 구성될거라 생각되어서 해당 부분을 나의 방법에 대해 설명하도록 하겠다. 나는 최빈값을 구하기 위해서 사실 처음에는 배열을 사용해서 문제 계산을 한게 아니라, 다양한 자료구조를 통해 문제를 해결하고자 하였다. 내가 처음으로 정답을 받은 코드를 먼저 확인해보자. (배열 사용 X, 다양한 Collection 자료구조 사용함)

문제 풀이2 (컬렉션 풀이 624ms)

import java.io.*;
import java.util.*;

public class Main {
    public static void main(String[] args) throws IOException {
        // 입출력을 위한 BufferedReader, BufferedWriter, StringBuilder 객체 생성
        BufferedReader br = new BufferedReader(new InputStreamReader(System.in));
        BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(System.out));
        StringBuilder sb = new StringBuilder();

        // 입력값의 개수
        int count = Integer.parseInt(br.readLine());
        // 평균값, 중앙값, 범위 값을 구하기 위해 사용되는 변수
        int[] array = new int[count];
        // 최빈값을 구하기 위해 사용되는 변수
        Map<Integer, Integer> map = new HashMap<>(); // 최빈값 구하기

        // 합계를 구하기 위한 변수
        int sum = 0;
        for (int i = 0; i < count; i++) {
            int input = Integer.parseInt(br.readLine());
            sum += input;
            array[i] = input;
            // 최빈값을 찾기 위한 map 을 통한 값 저장
            // key 값 = input 값, value 값 = 입력 횟수
            map.put(input, map.getOrDefault(input, 0) + 1);
        }
        // 배열 정렬 (중앙값을 찾기 위함에 있음)
        Arrays.sort(array);

        // 산술평균 값
        sb.append(Math.round((double) sum / count)).append("\n");
        // 중앙값
        sb.append(array[array.length / 2]).append("\n");
        // 최빈값
        sb.append(findMode(map)).append("\n");
        // 범위
        sb.append(array[array.length - 1] - array[0]).append("\n");

        // bw로 출력하기 위해 문자열로 변환 후 write
        bw.write(sb.toString());
        bw.flush();

        // 자원반납
        bw.close();
        br.close();
    }

    // 최빈값을 찾기 위한 메서드 
    public static int findMode(Map<Integer, Integer> map) {
        // 가장 큰 값을 찾기 위한 변수 선언
        int maxValue = Integer.MIN_VALUE;
        // 반복문을 통해 value 값이 가장 큰 값 찾기
        for (Integer key : map.keySet()) {
            Integer value = map.get(key);
            if (value > maxValue) {
                maxValue = value;
            }
        }

        // Set 자료구조중에 TreeSet은 자동으로 정렬해주는 특징을 가지고 있다.
        Set<Integer> set = new TreeSet<>();
        for (Map.Entry<Integer, Integer> es : map.entrySet()) {
            // 가장 큰값에 해당하는 key 값들을 set에 할당
            if (es.getValue() == maxValue) {
                set.add(es.getKey());
            }
        }

        // Set 자료구조를 List로 변환
        List<Integer> list = new ArrayList<>(set);
        if (list.size() > 1) {
            // 최빈값이 여러개라면? 두번째로 작은 값 retrun
            return list.get(1);
        } else {
            // 최빈값이 하나라면 첫번째 값 return
            return list.get(0);
        }
    }
}

왜 컬렉션 풀이에서 배열 풀이로 리팩토링을 하였는가?

위 방법으로 문제를 풀었을때는 최빈값부분에서 아무래도 형변환도 자주 일어나고 findMode 메서드를 통해 내부적으로 반복문이 한번더 실행되는게 시간복잡도 관점에서 보았을때 좀 별로라고 생각하였고, 최빈값을 구하는데에 있어서 저렇게 코드가 번잡하게 작성해야 할 필요가 있는가? 라는 물음에 스스로 답을 해보았을때 리팩토링이 필요하다고 생각이 되었다. 해서 문제의 조건을 다시 읽어보니, 입력되는 값의 범위가 절대값 4000까지 라는 문장이 숨어있었고, 해당 문장을 읽고나서 배열을 통해서 최빈값을 찾을 수 있겠다는 생각이 들어서 문제풀이1 과 같은 코드를 재 작성하게 되었다.

배열을 사용할수 있었던 이유

입력값이 범위가 절대값 4000 과 같이 문제에서 주어지지 않는다면 배열을 통해서 어느정도의 배열크기를 지정해서 선언하고 최빈값을 기록해야 하는지 알 수 없기에 컬렉션을 통해 최빈값을 찾는게 좋은 방법이 될 수 있지만, 현재 문제에서는 정확히 입력값의 범위가 주어졌기 때문에 배열을 통해서 푸는게 출제자가 의도한 문제 해답에 좀 더 가까운 해결책이라고 생각이 들었다.

배열풀이에서 가장 어려웠던 부분

배열을 통해서 본격적으로 코드를 작성할때 가장 난관이었던 부분은 최빈값이 여러개일때 두번째로 작은 값을 어떻게 구할것인가? 잘 생각해보니 freq라는 배열은 이미 어떻게 보면 정렬이 되어있는 배열이다. 그말이 무슨말이냐면 배열의 크기가 8001이며 0번 인덱스부터 8000번 인덱스 까지 값이 순차적으로 할당되어 있다. 이말은 정렬이 되어있는 최빈값의 배열이라는 말과 동일하다.

예를들어서 최빈값의 크기가 8이고 freq[0] = 1, freq[1] = 2, …. freq[302] = 8, …… freq[3302] = 8, …. 이런식의 상황이 있다면 순차적으로 freq 배열을 반복문을 돌았을때 첫번째 최빈값을 찾는 인덱스는 302번이다. 다만 최빈값이 8인 인덱스가 3302에도 있기에 두번째로 작은 값은 3302번이 되는데, 여기서 왜 이값이 두번쨰로 작은 값이냐면 위에서 freq 배열에 값을 할당할때 + 4000된 값을 freq 배열에 할당하였기에 실제로 return 되는 값은 3302 - 4000 값으로 -698이 return 된다.

마무리

위와 같은 방법을 통해 배열과 컬렉션을 사용한 문제풀이를 작성할 수 있었고, 어떤 상황에서 배열을 적용할지 컬렉션을 적용할지에 대해서도 느끼는 점이 많은 문제였던거 같다.