본문 바로가기
[자격증]/ADsP 문제 풀이

[3과목 예상문제] ADsP 오답 풀이

by 에디터 윤슬 2024. 10. 31.
 

01. 두 개의 확률변수 X와 Y가 있다. X와 Y의 공분산이 12이고, X의 분산이 9, Y의 분산이 16일 때 아래 설명 중 가장 부적절한 것은 무엇인가?

  1. 공분산의 값으로는 X와 Y의 선형 관계를 파악하기가 쉽지 않다.
  2. X와 Y의 강한 양의 상관관계에 있다고 할 수 있다.
  3. 상관계수의 값은 1이다.
  4. X와 Y의 공분산이 -12여도 X와 Y는 여전히 강한 양의 상관관계에 있다.

해설

  • 주어진 값
    • X와 Y의 공분산: 12
    • X의 분산: 9
    • Y의 분산: 16
  • 상관계수 계산
    • 상관계수는 두 변수 간의 선형 관계를 나타내는 지표로, 다음과 같은 공식을 사용합니다.​

  • 주어진 값을 대입하면:

  • 따라서, 상관계수는 1입니다. 이는 X와 Y가 강한 양의 상관관계에 있다는 것을 의미합니다.
  • 각 설명에 대한 분석
    • 1. 공분산의 값으로는 X와 Y의 선형 관계를 파악하기가 쉽지 않다.
      • 설명: 공분산은 두 변수 간의 선형 관계를 나타내지만, 그 값이 단위에 의존적이기 때문에 공분산 값만으로는 관계의 강도를 명확히 파악하기 어렵습니다. 대신 상관계수를 사용하면 단위에 영향을 받지 않고 두 변수 간의 선형 관계를 쉽게 평가할 수 있습니다.
    • 2. X와 Y의 강한 양의 상관관계에 있다고 할 수 있다.
      • 설명: 상관계수가 1이라는 것은 두 변수가 완벽한 양의 선형 관계에 있다는 뜻입니다. 즉, X가 증가하면 Y도 일정 비율로 증가하는 매우 강한 양의 상관관계를 의미합니다.
    • 3. 상관계수의 값은 1이다.
      • 설명: 위에서 계산한 결과처럼, 주어진 조건에서 상관계수는 정확히 1입니다.
    • 4. X와 Y의 공분산이 -12여도 X와 Y는 여전히 강한 양의 상관관계에 있다.
      • 설명: 공분산이 음수일 경우, 이는 두 변수가 반대 방향으로 움직인다는 것을 의미합니다. 즉, 한 변수가 증가할 때 다른 변수는 감소하는 경향을 보입니다. 만약 공분산이 -12라면, 이는 두 변수가 강한 음의 상관관계를 가진다는 뜻이지, 양의 상관관계를 의미하지 않습니다.
      • 부적절함: 이 설명은 틀렸습니다. 공분산이 음수일 경우에는 양의 상관관계가 아니라 음의 상관관계를 나타냅니다.

02. R의 데이터 구조 중 2차원 데이터 구조로 각 열이 모두 같은 데이터 타입을 갖는 데이터 구조는 무엇인가?

  1. 벡터
  2. 리스트
  3. 행렬
  4. 데이터프레임

해설

  • 1. 벡터 (Vector)
    • 설명: 벡터는 R에서 가장 기본적인 데이터 구조로, 한 가지 데이터 타입만을 가질 수 있습니다. 하지만 벡터는 1차원 데이터 구조이므로, 2차원 데이터를 다루는 데 적합하지 않습니다.
    • 오답 이유: 벡터는 1차원 구조이기 때문에 2차원 데이터를 처리할 수 없습니다.
  • 2. 리스트 (List)
    • 설명: 리스트는 여러 가지 데이터 타입을 동시에 가질 수 있는 매우 유연한 데이터 구조입니다. 하지만 리스트는 각 요소가 서로 다른 데이터 타입을 가질 수 있으며, 2차원 구조를 강제하지 않습니다.
    • 오답 이유: 리스트는 서로 다른 데이터 타입을 가질 수 있기 때문에, 문제에서 요구하는 "각 열이 같은 타입"의 조건에 맞지 않습니다.
  • 3. 행렬 (Matrix)
    • 설명: 행렬(Matrix)은 R에서 2차원 데이터 구조로, 모든 값이 동일한 데이터 타입이어야 합니다. 즉, 행렬 내의 모든 값은 숫자형, 문자형 등 한 가지 타입으로 통일되어야 합니다. 이는 문제에서 요구하는 "각 열이 모두 같은 데이터 타입" 조건에 부합합니다.예시: 행렬은 숫자형이나 문자형 등 하나의 타입으로만 구성된 2차원 데이터를 처리하는 데 적합합니다.
    • 정답 이유: 행렬은 2차원 데이터 구조이며, 모든 값이 동일한 데이터 타입이어야 하므로 문제의 조건에 부합합니다.
  • 4. 데이터프레임 (Data Frame)
    • 설명: 데이터프레임은 R에서 가장 많이 사용되는 2차원 데이터 구조로, 각 열이 서로 다른 데이터 타입을 가질 수 있습니다. 예를 들어, 한 열은 숫자형이고 다른 열은 문자형일 수 있습니다.
    • 오답 이유: 각 열이 서로 다른 데이터 타입을 가질 수 있기 때문에, 문제에서 요구하는 "각 열이 모두 같은 데이터 타입"이라는 조건에 맞지 않습니다.

03. 아래 보기의 예시에 대한 검정을 수행하려고 한다. 다음 중 가장 적절한 검정 방법은 무엇인가?

보기

하나의 기업이 같은 제품을 두 개의 판매경로를 통해 판매하고 있다. 외환위기가 닥쳐오자 매출이 더 적은 판매경로를 폐쇄하기로 결정하여 두 판매경로의 매출금액을 비교하고자 한다.

  1. 일 표본 T-검정
  2. 이 표본 T-검정
  3. 카이제곱 검정
  4. 분산분석

해설

  • T-검정이란?
    • T-검정은 두 그룹의 평균을 비교할 때 사용하는 통계적 방법입니다. 예를 들어, 두 반의 시험 성적 평균이 서로 다른지 알고 싶을 때 T-검정을 사용할 수 있습니다.T-검정에는 여러 종류가 있는데, 그 중에서도 주로 사용하는 두 가지는 일 표본 T-검정과 이 표본 T-검정입니다.
  • 일 표본 T-검정 (One-Sample T-Test)
    • 일 표본 T-검정 한 그룹의 평균을 특정한 기준값과 비교할 때 사용됩니다. 예를 들어, 한 반의 시험 성적 평균이 70점과 다른지 확인하고 싶을 때 사용합니다.
  • 이 표본 T-검정 (Two-Sample T-Test)
    • 이 표본 T-검정 두 그룹의 평균을 비교할 때 사용됩니다. 예를 들어, 두 반의 시험 성적 평균이 서로 다른지 알고 싶을 때 사용합니다. 이 문제에서는 두 판매 경로의 매출 금액을 비교하려고 하므로 이 검정 방법이 적합합니다.
  • 문제 상황 요약
    • 하나의 기업에서 같은 제품을 두 개의 판매 경로를 통해 판매하고 있습니다. 외환위기로 인해 매출이 더 적은 판매 경로를 폐쇄하려고 하는데, 이를 위해 두 판매 경로의 매출 금액을 비교하려고 합니다.
  • 각 검정 방법 설명
  • 1. 일 표본 T-검정 (One-Sample T-Test)
    • 설명: 일 표본 T-검정은 한 그룹의 평균을 특정 기준값과 비교하는 데 사용됩니다. 예를 들어, 한 판매 경로의 매출 평균이 특정 목표 매출과 다른지를 확인할 때 사용할 수 있습니다.
    • 예시: A라는 판매 경로의 매출 평균이 100만 원인지 확인하고 싶다면 일 표본 T-검정을 사용할 수 있습니다.
    • 오답 이유: 이 문제는 두 그룹(두 판매 경로)의 매출을 비교하는 것이므로, 일 표본 T-검정은 적절하지 않습니다.
  • 2. 이 표본 T-검정 (Two-Sample T-Test)
    • 설명: 이 표본 T-검정은 두 그룹 간의 평균 차이를 비교하는 데 사용됩니다. 이 문제에서는 두 개의 판매 경로에서 발생한 매출 금액이 서로 다른지를 확인하고자 하므로, 이 검정 방법이 가장 적합합니다.
    • 예시: A와 B라는 두 판매 경로에서 발생한 매출 금액이 서로 다른지를 확인할 때 이 표본 T-검정을 사용할 수 있습니다.
    • 적절한 이유: 이 문제는 두 판매 경로 간의 매출 금액 차이를 비교하는 것이므로, 이 표본 T-검정이 가장 적절한 선택입니다.
  • 3. 카이제곱 검정 (Chi-Square Test)
    • 설명: 카이제곱 검정은 주로 범주형 데이터에서 두 변수 간의 독립성을 확인하는 데 사용됩니다. 예를 들어, 고객 성별과 제품 구매 여부 간에 관계가 있는지 확인할 때 사용할 수 있습니다.
    • 예시: 남성과 여성 고객 중 어떤 성별이 특정 제품을 더 많이 구매했는지를 확인할 때 카이제곱 검정을 사용할 수 있습니다.
    • 오답 이유: 이 문제는 범주형 데이터가 아니라 연속형 데이터(매출 금액)를 다루고 있으므로 카이제곱 검정은 부적절합니다.
  • 4. 분산분석 (ANOVA)
    • 설명: 분산분석(ANOVA)은 세 개 이상의 그룹 간 평균 차이를 비교할 때 사용됩니다. 만약 세 개 이상의 판매 경로가 있었다면 적합할 수 있지만, 이 문제에서는 두 개의 판매 경로만 비교하고 있습니다.
    • 예시: A, B, C 세 개의 판매 경로에서 발생한 매출 금액 차이를 비교할 때 분산분석을 사용할 수 있습니다.
    • 오답 이유: ANOVA는 세 개 이상의 그룹을 비교할 때 사용되므로, 두 개의 그룹을 비교하는 이 문제에는 부적절합니다.

04. 다음 중 연관분석의 측도들에 대하여 잘못 설명한 것은 무엇인가?

  1. 지지도가 높으면 해당 품목의 판매는 자주 발생한다는 것을 의미한다.
  2. 신뢰도가 크면 두 품목은 같이 진열하였을 때 기대수익이 더 클 것으로 예상한다.
  3. 향상도가 크면 두 품목이 같이 진열될 때 더 잘 팔린다는 것을 의미한다.
  4. 지지도, 신뢰도, 향상도 모두 값이 클수록 연관 규칙이 의미 있게 된다.

해설

  • 연관 분석(Association Analysis)이란?
    • 연관 분석은 데이터에서 항목 간의 관계를 찾는 방법입니다. 예를 들어, "빵을 구매한 사람은 우유도 살 확률이 높다"와 같은 규칙을 찾는 것이 연관 분석의 목표입니다. 이를 통해 자주 함께 구매되는 항목들을 찾아낼 수 있습니다. 이러한 분석은 주로 마트나 온라인 쇼핑몰에서 추천 시스템을 만들 때 사용됩니다.
  • 연관 규칙의 주요 지표
    • 연관 분석에서 중요한 세 가지 지표가 있습니다: 지지도(Support), 신뢰도(Confidence), 그리고 향상도(Lift)입니다. 각각의 개념을 이해하는 것이 중요합니다.
  • 1. 지지도(Support)
    • 지지도는 특정 항목이 전체 거래 중 얼마나 자주 발생하는지를 나타냅니다. 쉽게 말해, 이 항목이 얼마나 자주 팔렸는지를 알려주는 지표입니다.
    • 예시: 만약 "빵"이라는 항목의 지지도가 0.3이라면, 전체 거래 중 30%에서 빵이 판매되었다는 것을 의미합니다.
    • 정리: 지지도가 높으면 해당 품목은 자주 팔린다는 뜻입니다.
  • 2. 신뢰도(Confidence)
    • 신뢰도는 A라는 상품을 구매한 사람이 B라는 상품도 구매할 확률을 나타냅니다. 즉, A와 B가 함께 팔릴 가능성을 보여줍니다.
    • 예시: "빵을 산 사람이 우유도 살 확률"이 80%라면, 빵과 우유 사이의 신뢰도는 0.8입니다.
    • 정리: 신뢰도가 높으면 두 품목이 함께 팔릴 가능성이 높다는 뜻입니다.
  • 3. 향상도(Lift)
    • 향상도는 두 품목이 함께 진열되었을 때 얼마나 더 잘 팔리는지를 나타냅니다. 향상도가 1보다 크면 두 품목은 서로 긍정적인 영향을 미치며, 함께 진열되었을 때 더 잘 팔린다는 의미입니다.
    • 예시: 향상도가 1.5라면, 두 품목을 함께 진열했을 때 개별적으로 판매될 때보다 1.5배 더 잘 팔린다는 의미입니다.
    • 정리: 향상도가 클수록 두 품목이 함께 팔릴 가능성이 더 높다는 뜻입니다.
  • 문제 설명
    • 1. 지지도가 높으면 해당 품목의 판매는 자주 발생한다는 것을 의미한다.
      • 설명: 지지도는 특정 품목이 전체 거래에서 얼마나 자주 발생하는지를 나타내므로, 지지도가 높으면 그 품목은 자주 팔린다는 뜻입니다.
    • 2. 신뢰도가 크면 두 품목은 같이 진열하였을 때 기대수익이 더 클 것으로 예상한다.
      • 설명: 신뢰도는 A를 구매한 사람이 B를 구매할 확률을 나타냅니다. 하지만 신뢰도가 크다고 해서 반드시 기대 수익이 더 크다고 말할 수는 없습니다. 신뢰도는 단순히 두 품목 간의 연관성을 나타내며, 수익과 직접적인 관계가 있는 것은 아닙니다.
      • 오답 이유: 신뢰도가 크다고 해서 반드시 기대수익이 더 크다고 할 수 없습니다. 이는 연관성만 나타낼 뿐, 수익과 직접적인 관련은 없습니다.
    • 3. 향상도가 크면 두 품목이 같이 진열될 때 더 잘 팔린다는 것을 의미한다.
      • 설명: 향상도는 두 품목이 함께 진열되었을 때 얼마나 더 잘 팔리는지를 나타냅니다. 향상도가 클수록 두 품목이 함께 진열되었을 때 더 많이 팔릴 가능성이 큽니다.
    • 4. 지지도, 신뢰도, 향상도 모두 값이 클수록 연관 규칙이 의미 있게 된다.
      • 설명: 지지도와 신뢰도가 클수록 해당 규칙은 자주 발생하고 강한 연관성을 가질 수 있습니다. 그러나 향상도의 경우에는 단순히 값이 큰 것이 중요한 것이 아니라, 1보다 클 때 의미가 있습니다. 향상도가 1보다 작으면 두 품목 간의 관계가 부정적일 수 있기 때문에, 무조건 값이 클수록 좋은 것은 아닙니다.
      • 오답 이유: 향상도의 경우 값이 무조건 클수록 좋은 것이 아니라, 1보다 클 때 긍정적인 연관성을 나타냅니다.

05. 다음 중 의사결정나무에 대한 설명으로 부적절한 것은 무엇인가?

  1. 목표변수가 연속형인 경우, 회귀나무를 활용한다.
  2. CART 알고리즘은 엔트로피지수를 분리 기준으로 사용한다.
  3. 정지규칙과 가지규칙을 통해 가지의 과적합을 방지한다.
  4. R에서 rpart 패키지를 활용하여 의사결정나무를 수행할 수 있다.

해설

  • 의사결정나무(Decision Tree)란?
    • 의사결정나무는 데이터를 분류하거나 예측하는 데 사용되는 모델입니다. 나무 구조를 통해 데이터를 여러 기준에 따라 나누면서 최종적으로 결과를 예측합니다. 의사결정나무는 크게 두 가지로 나뉩니다:
      1. 분류나무(Classification Tree): 목표 변수가 이산형(범주형)일 때 사용됩니다. 예를 들어, "합격/불합격"처럼 결과가 명확하게 나뉠 때 사용됩니다.
      2. 회귀나무(Regression Tree): 목표 변수가 연속형일 때 사용됩니다. 예를 들어, "시험 점수"처럼 값이 연속적으로 변할 수 있는 경우에 사용됩니다.
  • CART 알고리즘
    • CART(Classification and Regression Tree)는 의사결정나무를 만드는 대표적인 알고리즘입니다. 이 알고리즘은 분류 문제와 회귀 문제 모두 해결할 수 있습니다. CART 알고리즘은 주로 지니 지수(Gini Index)를 분할 기준으로 사용하여 데이터를 나누며, 목표 변수가 연속형일 경우에는 회귀나무로 활용됩니다.
  • 과적합 방지
    • 의사결정나무는 데이터를 너무 세밀하게 나누면 과적합(overfitting)이 발생할 수 있습니다. 이를 방지하기 위해 정지 규칙과 가지치기(pruning) 규칙을 사용하여 불필요하게 깊은 가지를 제거합니다.
  • 문제 설명
    • 1. 목표변수가 연속형인 경우, 회귀나무를 활용한다.
      • 설명: 목표 변수가 연속형일 때는 회귀나무(Regression Tree)를 사용합니다. 예를 들어, 시험 점수나 주식 가격처럼 연속적인 값을 예측할 때 회귀나무가 적합합니다.
    • 2. CART 알고리즘은 엔트로피지수를 분리 기준으로 사용한다.
      • 설명: CART 알고리즘은 주로 지니 지수(Gini Index)를 분할 기준으로 사용합니다. 반면, 엔트로피 지수(Entropy)는 다른 알고리즘인 C4.5 또는 ID3에서 사용됩니다.
    • 3. 정지규칙과 가지규칙을 통해 가지의 과적합을 방지한다.
      • 설명: 의사결정나무는 데이터를 지나치게 세분화하면 과적합이 발생할 수 있습니다. 이를 방지하기 위해 트리를 너무 깊게 만들지 않거나, 불필요한 가지를 제거하는 정지 규칙과 가지치기(pruning)를 적용합니다.
    • 4. R에서 rpart 패키지를 활용하여 의사결정나무를 수행할 수 있다.
      • 설명: R에서는 rpart 패키지를 사용하여 의사결정나무 모델을 만들 수 있습니다. rpart는 CART 알고리즘을 구현한 패키지로, 분류와 회귀 모두 가능합니다.

06. 다음 중 분산분석에 대한 설명으로 올바른 것은 무엇인가?

  1. 표본집단의 구성비율이 실제 모집단의 비율과 동일한지 비교하는 가설검정이다.
  2. 현실 세계의 데이터는 모분산을 알 수 없기 때문에 이를 해결하기 위한 방법이다.
  3. 두 개 이상의 집단에 대하여 평균을 비교하는 가설검정이다.
  4. 집단이 두 개인 경우 분산분석의 사후 검정이 반드시 필요하다.

해설

  • 분산분석(ANOVA)이란?
    • 분산분석(ANOVA)은 두 개 이상의 집단 간 평균 차이를 비교하기 위해 사용하는 통계적 방법입니다. 예를 들어, 세 개 이상의 그룹에서 평균 시험 점수가 서로 다른지 확인하고 싶을 때 사용할 수 있습니다.
  • 왜 분산을 분석할까?
    • 분산분석은 이름처럼 집단 간의 분산을 통해 평균 차이를 비교합니다. 각 집단의 평균이 다르면, 집단 간의 분산이 커지게 됩니다. ANOVA는 이 분산을 분석하여 집단 간의 차이가 통계적으로 유의미한지를 판단합니다.
  • 사후 검정(Post-hoc Test)
    • 만약 ANOVA 결과에서 집단 간 평균 차이가 통계적으로 유의미하다고 나오면, 어떤 집단들 간에 차이가 있는지를 확인하기 위해 사후 검정(Post-hoc Test)을 수행합니다. 사후 검정은 세 개 이상의 집단일 때 주로 사용됩니다.
  • 각 선택지 분석
    • 1. 표본집단의 구성비율이 실제 모집단의 비율과 동일한지 비교하는 가설검정이다.
      • 설명: 이 설명은 카이제곱 검정(Chi-Square Test)에 대한 설명입니다. 카이제곱 검정은 범주형 데이터에서 두 변수 간의 독립성을 확인하거나, 표본집단과 모집단의 비율을 비교할 때 사용됩니다.
      • 오답 이유: 이 설명은 분산분석이 아니라 카이제곱 검정에 해당합니다.
    • 2. 현실 세계의 데이터는 모분산을 알 수 없기 때문에 이를 해결하기 위한 방법이다.
      • 설명: 이 설명은 분산분석과 직접적인 관련이 없습니다. 분산분석은 모분산을 추정하는 방법이 아니라, 여러 집단 간의 평균 차이를 비교하는 방법입니다.
      • 오답 이유: 이 설명은 분산분석과 관련이 없으며, 모분산 추정과 관련된 문제를 해결하는 방법도 아닙니다.
    • 3. 두 개 이상의 집단에 대하여 평균을 비교하는 가설검정이다.
      • 설명: 분산분석(ANOVA)은 두 개 이상의 집단 간 평균 차이를 비교하는 데 사용됩니다. 예를 들어, 세 개 이상의 그룹에서 평균 점수가 서로 다른지 확인할 때 ANOVA를 사용할 수 있습니다.
    • 4. 집단이 두 개인 경우 분산분석의 사후 검정이 반드시 필요하다.
      • 설명: 만약 비교하려는 집단이 두 개라면, ANOVA 대신 T-검정을 사용하는 것이 일반적입니다. 또한, 사후 검정(Post-hoc Test)은 보통 세 개 이상의 집단일 때 어떤 그룹들 간에 차이가 있는지를 확인하기 위해 사용됩니다.
      • 오답 이유: 두 개의 집단에서는 보통 T-검정을 사용하며, 사후 검정은 세 개 이상의 집단일 때 필요합니다.

07. 다음 중 k-NN에 대한 설명으로 올바른 것은 무엇인가?

  1. 인공신경망 기법 중 하나로 이미지 행렬에 k번의 합성곱으로 이미지 분석을 수행한다.
  2. 분류 분석 혹은 회귀분석에 사용되는 방법이지만 주변 k개의 데이터를 탐색하여 다수결 방식에 의하여 결측값을 대체하는 결측값 처리 방법으로도 활용될 수 있다.
  3. 비계층적 군집분석인 K평균 군집 분석의 하나로 데이터를 이상적으로 설명할 수 있는 K 값을 찾는 방법이다.
  4. 연관분석의 알고리즘으로 최소 지지도 K를 설정하여 최소 지지도 이상의 값을 갖는 품목을 찾는 방법이다.

해설

  • k-NN(K-Nearest Neighbors)이란?
    • k-NN은 지도 학습(Supervised Learning) 알고리즘 중 하나로, 분류(Classification)와 회귀(Regression) 문제에 모두 사용됩니다. 이 알고리즘은 새로운 데이터가 주어졌을 때, 그 데이터와 가장 가까운 k개의 이웃 데이터를 찾아서 분류하거나 값을 예측하는 방식으로 동작합니다.
  • 주요 특징
    • 분류와 회귀: k-NN은 분류 문제뿐만 아니라 회귀 문제에도 사용될 수 있습니다.
    • 다수결 방식: 분류 문제에서는 k개의 이웃 중에서 다수결 방식으로 새로운 데이터를 분류합니다.
    • 거리 기반 계산: 데이터 간의 거리를 계산하여 가까운 이웃을 찾습니다. 주로 유클리드 거리(Euclidean Distance)를 사용하지만, 다른 거리 측정 방법도 가능합니다.
    • 결측값 처리: k-NN은 결측값 처리에도 사용될 수 있습니다. 결측값이 있는 데이터를 주변의 k개의 이웃 데이터를 기반으로 예측하여 채울 수 있습니다.
  • 각 선택지 분석
    • 1. 인공신경망 기법 중 하나로 이미지 행렬에 k번의 합성곱으로 이미지 분석을 수행한다.
      • 설명: 이 설명은 인공신경망(Artificial Neural Network, ANN)과 관련된 설명이며, 특히 합성곱 신경망(CNN)에서 사용하는 방법입니다. CNN은 이미지 분석에 주로 사용되며, 합성곱(convolution) 연산을 통해 이미지의 특징을 추출합니다.
      • 오답 이유: k-NN은 인공신경망 기법이 아니며, 합성곱 연산과 관련이 없습니다.
    • 2. 분류 분석 혹은 회귀분석에 사용되는 방법이지만 주변 k개의 데이터를 탐색하여 다수결 방식에 의하여 결측값을 대체하는 결측값 처리 방법으로도 활용될 수 있다.
      • 설명: k-NN은 분류와 회귀 분석 모두에 사용되며, 결측값 처리에도 활용될 수 있습니다. 결측값이 있는 데이터를 주변의 k개의 이웃 데이터를 기반으로 예측하여 대체할 수 있습니다.
      • 정답 이유: k-NN은 분류 및 회귀 분석뿐만 아니라 결측값 처리에도 사용할 수 있습니다.
    • 3. 비계층적 군집분석인 K평균 군집 분석의 하나로 데이터를 이상적으로 설명할 수 있는 K 값을 찾는 방법이다.
      • 설명: 이 설명은 K-평균 군집(K-Means Clustering) 알고리즘에 대한 설명입니다. K-평균 군집은 비지도 학습(Unsupervised Learning) 알고리즘으로, 데이터를 K개의 군집으로 나누고 각 군집의 중심점을 찾아가는 방식입니다.
      • 오답 이유: k-NN과 K-평균 군집은 서로 다른 알고리즘입니다. k-NN은 지도 학습이고, K-평균 군집은 비지도 학습입니다.
    • 4. 연관분석의 알고리즘으로 최소 지지도 K를 설정하여 최소 지지도 이상의 값을 갖는 품목을 찾는 방법이다.
      • 설명: 이 설명은 연관 분석(Association Analysis)에 대한 설명입니다. 연관 분석에서는 최소 지지도(Support)를 설정하여 자주 함께 발생하는 항목들을 찾습니다.
      • 오답 이유: k-NN과 연관 분석은 서로 다른 알고리즘입니다. 연관 분석에서는 지지도를 사용하지만, k-NN에서는 거리 기반으로 가까운 이웃을 찾습니다.
  • 추가 설명
    • k-NN 알고리즘은 분류 및 회귀 분석뿐만 아니라 결측값 처리에도 사용할 수 있습니다. 주변의 k개의 이웃 데이터를 탐색하여 다수결 방식으로 결측값을 대체할 수 있습니다.따라서 이번 문제에서 올바른 선택지는 "분류 분석 혹은 회귀분석에 사용되는 방법이지만 주변 k개의 데이터를 탐색하여 다수결 방식에 의하여 결측값을 대체하는 결측값 처리 방법으로도 활용될 수 있다"입니다

08. 다음 중 비모수적 방법에 대한 설명으로 옳지 않은 것은?

  1. 모집단의 분포에 대한 가정사항 없이 통계적 추론을 할 수 있다.
  2. 표본집단에 대한 평균과 분산을 활용한다는 점에서 모수적 방법과 공통점을 갖는다.
  3. 자료를 순서대로 나열하여 각각의 순위를 활용한 분석 기법을 순위검정이라 한다.
  4. 전체 자료에서 중앙값을 뺐을 때 그 값이 양수인지 음수인지로 검정을 수행하는 방법을 부호 검정이라 한다.

해설

  • 비모수적 방법이란?
    • 비모수적 방법(Non-parametric methods)은 모집단의 분포에 대한 가정 없이 데이터를 분석하는 통계적 기법입니다. 즉, 데이터가 특정한 분포(예: 정규분포)를 따른다고 가정하지 않고 분석을 수행합니다. 이는 주로 데이터가 적거나 모집단의 분포를 알 수 없을 때 사용됩니다.
  • 비모수적 방법의 특징
    • 모집단의 분포 가정 없음: 비모수적 방법은 모집단의 분포에 대한 가정이 없기 때문에, 다양한 상황에서 유연하게 사용할 수 있습니다.
    • 순위 기반 분석: 비모수적 방법은 주로 데이터의 순위를 이용하여 분석합니다. 예를 들어, 데이터를 크기순으로 나열한 후 순위를 매겨 분석하는 방식입니다.
    • 중앙값 중심의 검정: 비모수적 방법에서는 평균 대신 중앙값을 중심으로 검정을 수행하는 경우가 많습니다.
  • 대표적인 비모수적 검정
    • 순위검정(Rank Test): 데이터를 순서대로 나열하여 각 데이터의 순위를 이용해 검정을 수행하는 방법입니다.
    • 부호검정(Sign Test): 자료에서 중앙값을 기준으로 값이 양수인지 음수인지를 확인하여 검정을 수행하는 방법입니다.
  • 각 선택지 분석
    • 1. 모집단의 분포에 대한 가정사항 없이 통계적 추론을 할 수 있다.
      • 설명: 비모수적 방법은 모집단의 분포에 대한 가정 없이 통계적 추론을 할 수 있습니다. 이는 비모수적 방법의 주요 특징 중 하나입니다.
    • 2. 표본집단에 대한 평균과 분산을 활용한다는 점에서 모수적 방법과 공통점을 갖는다.
      • 설명: 비모수적 방법은 주로 중앙값이나 순위 정보를 활용하며, 평균과 분산 같은 통계량을 활용하는 것은 주로 모수적 방법(Parametric methods)에서 사용됩니다. 모수적 방법은 모집단이 특정한 분포를 따른다고 가정하고, 그에 따라 평균과 분산을 계산하여 분석합니다.
      • 오답 이유: 비모수적 방법은 평균과 분산을 활용하지 않고, 주로 중앙값이나 순위를 사용하므로 이 설명은 부적절합니다.
    • 3. 자료를 순서대로 나열하여 각각의 순위를 활용한 분석 기법을 순위검정이라 한다.
      • 설명: 순위검정(Rank Test)은 자료를 크기순으로 나열한 후 각 데이터에 순위를 매겨 검정을 수행하는 비모수적 기법입니다.
    • 4. 전체 자료에서 중앙값을 뺐을 때 그 값이 양수인지 음수인지로 검정을 수행하는 방법을 부호 검정이라 한다.
      • 설명: 부호검정(Sign Test)은 자료에서 중앙값을 기준으로 값이 양수인지 음수인지를 확인하여 검정을 수행하는 비모수적 기법입니다.

09. 모집단의 표본집단을 추출하고 표본집단으로부터 모수를 추정하는 것을 통계적 추론이라 한다. 다음 중 통계적 추론에 대한 설명으로 가장 부적절한 것은?

  1. 점추정이란 표본집단으로부터 찾아낸 모수가 될 수 있는 특정 값을 의미한다.
  2. 구간추정이란 표본집단으로부터 모수가 포함될 범위를 파악하는 것이다.
  3. 구간추정을 통해 얻은 범위에 모수가 포함될 가능성은 신뢰도다.
  4. 신뢰도 값이 커질수록 구간추정의 범위는 좁아진다.

해설

  • 통계적 추론(Statistical Inference)이란?
    • 통계적 추론은 모집단의 특성(모수)을 표본집단을 통해 추정하는 과정입니다. 모집단 전체를 조사하는 것은 현실적으로 불가능한 경우가 많기 때문에, 표본집단을 추출하여 이를 바탕으로 모집단의 특성을 추정하게 됩니다.
  • 통계적 추론의 주요 개념
    • 점추정(Point Estimation): 표본집단에서 계산된 특정 값을 사용하여 모집단의 모수를 추정하는 방법입니다. 예를 들어, 표본의 평균을 모집단 평균의 점추정값으로 사용하는 것이 대표적인 예입니다.
    • 구간추정(Interval Estimation): 특정 값 하나가 아니라, 모수가 포함될 가능성이 높은 범위(구간)를 제시하는 방법입니다. 구간추정은 모수가 포함될 가능성이 높은 범위를 제시하며, 이때 신뢰도(Confidence Level)라는 개념이 사용됩니다.
    • 신뢰도(Confidence Level): 구간추정에서 제시한 범위에 모수가 포함될 가능성을 나타내는 값입니다. 예를 들어, 95% 신뢰도는 "이 구간이 95% 확률로 모집단의 모수를 포함한다"는 의미입니다.
  • 신뢰도와 구간의 관계
    • 신뢰도가 높아질수록, 즉 더 높은 확률로 모수를 포함하려면 구간이 더 넓어져야 합니다. 따라서 신뢰도가 커질수록 구간은 넓어집니다.
    • 반대로, 신뢰도가 낮아지면 구간은 좁아지지만, 모수가 그 구간에 포함될 가능성은 줄어듭니다.
  • 각 선택지 분석
    • 1. 점추정이란 표본집단으로부터 찾아낸 모수가 될 수 있는 특정 값을 의미한다.
      • 설명: 점추정은 표본집단에서 계산된 특정 값을 통해 모집단의 모수를 추정하는 방법입니다. 예를 들어, 표본 평균을 사용하여 모집단 평균을 추정하는 것이 점추정입니다.
    • 2. 구간추정이란 표본집단으로부터 모수가 포함될 범위를 파악하는 것이다.
      • 설명: 구간추정은 특정 값 대신 모수가 포함될 가능성이 높은 범위를 제시하는 방법입니다. 예를 들어, "모집단 평균이 95% 확률로 이 범위 안에 있다"와 같은 방식으로 표현됩니다.
    • 3. 구간추정을 통해 얻은 범위에 모수가 포함될 가능성은 신뢰도다.
      • 설명: 신뢰도는 구간추정에서 제시된 범위에 모집단의 모수가 포함될 가능성을 나타냅니다. 예를 들어, 95% 신뢰도는 "이 구간이 95% 확률로 모집단의 모수를 포함한다"는 뜻입니다.
    • 4. 신뢰도 값이 커질수록 구간추정의 범위는 좁아진다.
      • 설명: 신뢰도가 커질수록 더 높은 확률로 모수를 포함시키려면, 구간이 더 넓어져야 합니다. 즉, 신뢰도가 커질수록 구간은 좁아지는 것이 아니라 넓어집니다.
      • 부적절한 이유: 신뢰도가 커질수록 구간은 넓어지며, 반대로 신뢰도가 작아질수록 구간은 좁아집니다.

10. 다음 중 자기상관함수와 부분자기상관함수에 대한 설명으로 잘못된 것은 무엇인가?

  1. 시계열 자료에서 현재 시점의 데이터로부터 특정 시차만큼 떨어진 값들에 대한 상관계수를 함수로 나타낸 것이 자기상관함수다.
  2. 자기상관함수는 시차가 0일 때 자기 자신과의 상관계수를 의미하므로 자기상관함수의 값은 1이다.
  3. 부분자기상관함수는 시계열 자료에서 순환요인을 제거한 자기상관함수다.
  4. 자기상관함수와 부분자기상관함수 모두 시계열 모형을 선택하기 위해 사용된다.

해설

  • 자기상관함수(ACF)와 부분자기상관함수(PACF)
    • 1. 자기상관함수(ACF)
      • 자기상관함수(ACF)는 시계열 데이터에서 현재 시점의 데이터 특정 시차만큼 떨어진 데이터 간의 상관관계를 나타내는 함수입니다. 예를 들어, Yt Yt−k 간의 상관계수를 계산하여 시차 k에 따른 상관성을 분석합니다.
      • ACF는 시차가 0일 때, 즉 자기 자신과의 상관계수는 항상 1입니다. 이는 어떤 데이터도 자기 자신과는 완벽하게 상관되어 있기 때문입니다.
    • 2. 부분자기상관함수(PACF)
      • 부분자기상관함수(PACF)는 특정 시차에서 두 변수 간의 직접적인 상관성을 측정하기 위해 중간에 있는 다른 시점들의 영향을 제거한 상관계수를 나타냅니다. 
      • PACF는 주로 자기회귀 모형(AR)의 차수를 결정하는 데 사용됩니다.
  • 시계열 모형 선택
    • ACF와 PACF는 모두 시계열 모형을 선택하는 데 중요한 역할을 합니다. 예를 들어, ACF와 PACF의 패턴을 분석하여 AR(p), MA(q), ARMA(p,q) 모형의 차수를 결정할 수 있습니다.
  • 각 선택지 분석
    • 1. 시계열 자료에서 현재 시점의 데이터로부터 특정 시차만큼 떨어진 값들에 대한 상관계수를 함수로 나타낸 것이 자기상관함수다.
      • 설명: 자기상관함수(ACF)는 현재 시점과 특정 시차만큼 떨어진 값들 간의 상관계수를 나타냅니다.
    • 2. 자기상관함수는 시차가 0일 때 자기 자신과의 상관계수를 의미하므로 자기상관함수의 값은 1이다.
      • 설명: 시차가 0일 때는 자기 자신과의 상관계수를 의미하며, 이는 항상 1입니다.
    • 3. 부분자기상관함수는 시계열 자료에서 순환요인을 제거한 자기상관함수다.
      • 설명: 부분자기상관함수(PACF)는 순환요인을 제거하는 것이 아니라, 특정 시차에서 두 변수 간의 직접적인 관계를 측정하기 위해 중간에 있는 다른 시점들의 영향을 제거한 후 남은 순수한 상관성을 계산하는 함수입니다. "순환요인"이라는 표현은 부적절합니다.
      • 부적절한 이유: PACF는 순환요인을 제거하는 것이 아니라, 중간 변수들의 영향을 제거하고 순수한 상관성을 측정하는 함수이므로 이 설명은 틀렸습니다.
    • 4. 자기상관함수와 부분자기상관함수 모두 시계열 모형을 선택하기 위해 사용된다.
      • 설명: ACF와 PACF는 모두 AR, MA, ARMA 등의 시계열 모형을 선택할 때 중요한 정보를 제공합니다.

11. 아래 보기에서 설명하는 예시를 수행하기 위한 검정 방법은 무엇인가?

보기

사람을 연령기에 따라 유아기, 청소년기, 성인, 노년기로 분류할 수 있다. 위 분류로 인구를 나눌 때 수도권과 비수도권 지역의 인구 구성비율에 차이가 있는지 없는지 비교하려고 한다.

  1. 동질성 검정
  2. F 검정
  3. 이 표본 T-검정
  4. 등분산 검정

해설

  • 각 검정 방법 설명
    • 1. 동질성 검정 (Test of Homogeneity)
      • 설명: 동질성 검정은 두 개 이상의 집단에서 특정 범주형 변수의 분포가 동일한지를 비교하는 데 사용됩니다. 이 문제에서 수도권과 비수도권이라는 두 집단에서 연령대(유아기, 청소년기, 성인, 노년기)에 따른 인구 구성비율이 동일한지를 비교하는 것이므로, 동질성 검정이 적합합니다.
      • 예시: 수도권과 비수도권에서 연령대별 인구 구성비율이 같은지 다른지를 확인하는 상황에서는 동질성 검정을 사용합니다.
    • 2. F 검정 (F-test)
      • 설명: F-검정은 주로 두 집단 간의 분산 차이를 비교할 때 사용됩니다. 예를 들어, 두 그룹의 데이터가 동일한 분산을 가지는지 확인할 때 사용됩니다. 이 문제는 인구 구성비율을 비교하는 문제이므로, 분산을 비교하는 F-검정은 적절하지 않습니다.
      • 예시: 두 그룹의 시험 점수 분산이 같은지 다른지를 확인할 때 F-검정을 사용할 수 있습니다.
    • 3. 이 표본 T-검정 (Two-Sample T-Test)
      • 설명: 이 표본 T-검정은 두 집단 간의 평균 차이를 비교할 때 사용됩니다. 이 문제는 평균이 아닌 인구 구성비율을 비교하는 문제이므로, 이 표본 T-검정은 적절하지 않습니다.
      • 예시: 수도권과 비수도권의 평균 소득 차이를 비교할 때 이 표본 T-검정을 사용할 수 있습니다.
    • 4. 등분산 검정 (Levene’s Test or Bartlett’s Test)
      • 설명: 등분산 검정은 두 개 이상의 집단 간에 분산이 동일한지를 확인하는 데 사용됩니다. 이는 주로 T-검정을 수행하기 전에 두 집단 간의 분산이 같은지 여부를 확인할 때 사용됩니다. 하지만 이 문제는 분산이 아닌 인구 구성비율을 비교하는 문제이므로, 등분산 검정은 적절하지 않습니다.
      • 예시: 두 그룹의 데이터가 동일한 분산을 가지는지 확인할 때 등분산 검정을 사용할 수 있습니다.
  • 문제 분석
    • 이 문제는 수도권과 비수도권이라는 두 집단에서 연령대별 인구 구성비율(유아기, 청소년기, 성인, 노년기)이 동일한지를 확인하려고 합니다. 이는 범주형 변수(연령대)에 대한 두 집단 간의 분포 차이를 확인하는 문제입니다

12. 다음 중 군집분석의 종류가 아닌 것은 무엇인가?

  1. K Means Clustering
  2. Mixture Of Normal Distribution
  3. Self - Organizing Map
  4. Multidimensional Scaling

해설

  • 1. K Means Clustering
    • 설명: K-평균 군집(K-Means Clustering)은 가장 널리 사용되는 군집분석 기법 중 하나입니다. 주어진 데이터를 K개의 군집으로 나누고, 각 군집의 중심을 반복적으로 조정하여 최적의 군집을 형성합니다.
    • 적절한 이유: K-평균 군집은 대표적인 비계층적 군집 분석 기법입니다.
  • 2. Mixture of Normal Distribution
    • 설명: 혼합 분포 군집(Mixture of Normal Distribution)은 데이터가 여러 개의 정규분포로부터 생성되었다고 가정하고, 이를 기반으로 데이터를 군집화하는 방법입니다. 이는 모형 기반 군집화 방법 중 하나입니다.
    • 적절한 이유: 혼합 분포 군집은 모형 기반 군집 분석 기법에 속합니다.
  • 3. Self-Organizing Map (SOM)
    • 설명: Self-Organizing Map(SOM)은 인공신경망을 기반으로 한 비지도 학습 방법으로, 고차원의 데이터를 저차원으로 시각화하면서 데이터를 군집화하는 방법입니다. SOM은 코호넨 맵(Kohonen Map)이라고도 불리며, 자율 학습을 통해 데이터를 분류합니다.
    • 적절한 이유: SOM은 군집분석의 한 종류로, 특히 고차원 데이터를 저차원으로 변환하면서 유사한 데이터들을 묶는 데 사용됩니다.
  • 4. Multidimensional Scaling (MDS)
    • 설명: 다차원 척도법(Multidimensional Scaling, MDS)은 데이터 간의 거리를 시각적으로 표현하는 방법으로, 주로 고차원 데이터를 저차원 공간에 시각적으로 배치하는 데 사용됩니다. 그러나 MDS는 데이터 간의 거리를 시각화하는 것이 목적이지, 명확하게 데이터를 군집화하는 방법은 아닙니다.
    • 부적절한 이유: MDS는 데이터 간의 거리를 시각적으로 표현하는 방법이지, 데이터를 직접적으로 군집화하는 방법은 아닙니다.

13. 다음 중 시계열 분석에 대한 설명으로 부적절한 것은 무엇인가?

  1. 환율 예측, 주가 예측과 같이 시간을 변수로 갖는 데이터 분석이 목적이다.
  2. 시계열 분석을 위해서는 시계열 자료의 정상성 가정이 요구된다.
  3. 평균이 일정하지 않은 경우 변환, 분산이 일정하지 않은 경우 차분을 통해 정상성을 만족시킬 수 있다.
  4. 백색잡음이란 정규분포로부터 추출된 데이터로 시계열 자료에서 오차항에 해당한다.

해설

  • 시계열 분석(Time Series Analysis)이란?
    • 시계열 분석은 시간의 흐름에 따라 수집된 데이터를 분석하는 방법입니다. 주로 환율 예측, 주가 예측, 기온 변화 등과 같이 시간이 중요한 변수로 작용하는 데이터를 다룹니다. 시계열 분석에서는 데이터가 시간에 따라 어떻게 변하는지 패턴을 찾아내어 미래를 예측하는 것이 목적입니다.
  • 정상성(Stationarity)
    • 시계열 분석에서 중요한 개념 중 하나는 정상성(Stationarity)입니다. 정상성은 시계열 데이터의 통계적 특성이 시간에 따라 변하지 않는 것을 의미합니다. 정상성을 만족하는 데이터는 평균과 분산이 일정하며, 자기공분산도 시차에만 의존합니다.
  • 정상성을 만족하지 않는 경우
    • 평균이 일정하지 않은 경우: 로그 변환이나 차분(differencing)을 통해 평균을 일정하게 만들 수 있습니다.
    • 분산이 일정하지 않은 경우: 분산이 일정하지 않다면, 로그 변환 등을 통해 분산을 일정하게 만들 수 있습니다.
  • 백색잡음(White Noise)
    • 백색잡음(White Noise)는 시계열 분석에서 랜덤한 오차항을 의미합니다. 백색잡음은 평균이 0이고, 모든 시점에서 동일한 분산을 가지며, 서로 독립적인 값을 가집니다. 백색잡음은 시계열 모델에서 예측 불가능한 오차를 나타냅니다.
  • 각 선택지 분석
    • 1. 환율 예측, 주가 예측과 같이 시간을 변수로 갖는 데이터 분석이 목적이다.
      • 설명: 시계열 분석은 환율, 주가, 기온 등 시간의 흐름에 따라 변화하는 데이터를 분석하고 예측하는 데 사용됩니다.
    • 2. 시계열 분석을 위해서는 시계열 자료의 정상성 가정이 요구된다.
      • 설명: 대부분의 시계열 모델, 특히 ARIMA 모델 등은 정상성을 가정하고 있습니다. 따라서 데이터를 정상성 상태로 변환한 후에 분석을 수행하는 것이 중요합니다.
    • 3. 평균이 일정하지 않은 경우 변환, 분산이 일정하지 않은 경우 차분을 통해 정상성을 만족시킬 수 있다.
      • 설명: 일반적으로, 평균이 일정하지 않은 경우에는 차분(differencing)을 사용하여 평균을 일정하게 만들고, 분산이 일정하지 않은 경우에는 변환(예: 로그 변환)을 사용하여 분산을 일정하게 만듭니다.
      • 차분(differencing)은 데이터 간의 차이를 계산하여 평균이 시간에 따라 변화하는 문제를 해결합니다.
      • 로그 변환(log transformation)은 분산이 시간에 따라 변화할 때 이를 일정하게 만드는 데 사용됩니다.
      • 부적절한 이유: 평균이 일정하지 않을 때는 차분을 사용하고, 분산이 일정하지 않을 때는 변환(예: 로그 변환)을 사용하는 것이 일반적인 방법입니다.
  • 4. 백색잡음이란 정규분포로부터 추출된 데이터로 시계열 자료에서 오차항에 해당한다.
    • 설명: 백색잡음은 랜덤한 오차항으로, 평균이 0이고 분산이 일정하며 서로 독립적인 값을 가집니다. 이는 시계열 모델에서 예측할 수 없는 오차를 나타냅니다.

14. 다음 중 데이터의 결측값 처리 방법에 대한 설명으로 잘못된 것은 무엇인가?

  1. 평균 대치법은 해당 변수의 평균으로 모든 결측값을 대치하는 것이다.
  2. 조건부 평균 대치법은 해당 변수를 회귀분석과 같은 분석을 통해 비조건부 평균 대치법보다 좀 더 신뢰성 높은 값으로 결측값을 대치한다.
  3. 다중 대치법은 대치, 결합, 분석 세 단계가 순차적으로 진행되어 결측값 대치를 진행한다.
  4. 결측값이 많은 경우 단순대치법은 막대한 양의 데이터 손실을 초래한다.

해설

  • 결측값 처리 방법이란?
    • 데이터 분석에서 결측값(Missing Values)은 중요한 문제 중 하나입니다. 결측값이 많거나 적절히 처리되지 않으면 분석 결과에 큰 영향을 미칠 수 있습니다. 이를 해결하기 위해 다양한 결측값 처리 방법이 사용됩니다.
  • 주요 결측값 처리 방법
    • 평균 대치법(Mean Imputation): 결측값을 해당 변수의 평균으로 대치하는 방법입니다. 간단하지만, 데이터의 분산을 왜곡할 수 있다는 단점이 있습니다.
    • 조건부 평균 대치법(Conditional Mean Imputation): 회귀분석이나 다른 통계적 기법을 사용하여 결측값을 예측하고 대치하는 방법입니다. 평균 대치법보다 더 신뢰성 있는 값을 제공할 수 있습니다.
    • 다중 대치법(Multiple Imputation): 여러 번의 대치를 통해 다양한 가능한 값들을 생성하고, 이를 결합하여 분석하는 방법입니다. 이 방법은 단순한 대치보다 더 복잡하지만, 더 신뢰성 있는 결과를 제공합니다.
    • 단순 대치법(Simple Imputation): 결측값이 있는 데이터를 제거하는 방법입니다. 이 방법은 간단하지만, 많은 양의 데이터를 잃을 수 있다는 단점이 있습니다.
  • 각 선택지 분석
    • 1. 평균 대치법은 해당 변수의 평균으로 모든 결측값을 대치하는 것이다.
      • 설명: 평균 대치법(Mean Imputation)은 결측값을 해당 변수의 평균으로 대체하는 방법입니다. 이 방법은 간단하지만, 데이터의 분산을 왜곡할 수 있습니다.
    • 2. 조건부 평균 대치법은 해당 변수를 회귀분석과 같은 분석을 통해 비조건부 평균 대치법보다 좀 더 신뢰성 높은 값으로 결측값을 대치한다.
      • 설명: 조건부 평균 대치법(Conditional Mean Imputation)은 회귀분석이나 다른 통계적 기법을 사용하여 결측값을 예측하고 대체합니다. 이는 단순한 평균 대치법보다 더 신뢰성 있는 값을 제공할 수 있습니다.
    • 3. 다중 대치법은 대치, 결합, 분석 세 단계가 순차적으로 진행되어 결측값 대치를 진행한다.
      • 설명: 다중 대치법(Multiple Imputation)은 세 가지 단계로 이루어집니다:
        • 대치(Imputation): 결측값을 여러 번 대체하여 여러 개의 완전한 데이터셋을 생성합니다. 이때, 각 데이터셋은 결측값을 다른 방식으로 대체하여 데이터의 불확실성을 반영합니다.
        • 분석(Analysis): 생성된 여러 개의 완전한 데이터셋 각각에 대해 통계 분석을 수행합니다.
        • 결합(Combination): 각 데이터셋에서 얻은 분석 결과를 결합하여 최종 결과를 도출합니다.
    • 4. 결측값이 많은 경우 단순대치법은 막대한 양의 데이터 손실을 초래한다.
      • 설명: 데이터를 삭제하는 방식은 많은 양의 데이터를 잃게 될 수 있습니다.

15. 로지스틱 회귀분석에 대한 설명으로 부적절한 것은 무엇인가?

  1. 종속변수(y)는 0과 1 사이의 확률값을 반환하므로 이진 분류에 적합하다.
  2. 오즈값을 종속변수(y)로 사용할 수 없다.
  3. 오즈값이란 실패 확률을 성공 확률로 나눈 값이다.
  4. 독립변수가 여러 개가 있는 경우에도 다중회귀와 같은 방법으로 종속변수(y)의 확률값을 구할 수 있다.

해설

  • 로지스틱 회귀분석(Logistic Regression)이란?
    • 로지스틱 회귀분석은 이진 분류(Binary Classification) 문제를 해결하기 위한 통계적 방법입니다. 이 방법은 종속변수가 0 또는 1과 같은 이진 값을 가질 때 사용됩니다. 예를 들어, "합격/불합격", "구매/미구매"와 같은 이진 분류 문제에서 로지스틱 회귀를 사용할 수 있습니다.
  • 주요 특징
    • 종속변수의 값: 로지스틱 회귀의 종속변수는 0 또는 1로 나타나는 이진 변수입니다. 로지스틱 회귀는 주어진 독립변수를 바탕으로 종속변수가 1일 확률을 예측합니다.
  • 오즈(Odds)와 오즈비(Odds Ratio):
    • 오즈(Odds)는 성공 확률을 실패 확률로 나눈 값입니다. 즉,  = P(성공) / P(실패)입니다.
    • 오즈비(Odds Ratio)는 두 그룹 간의 오즈 비율을 나타냅니다.
    • 로짓 함수(Logit Function): 로지스틱 회귀는 선형 회귀와 달리, 종속변수가 0과 1 사이의 확률값을 반환하기 때문에, 이를 위해 로짓 함수를 사용하여 선형식을 확률값으로 변환합니다.
    • 다중 로지스틱 회귀: 독립변수가 여러 개인 경우에도 로지스틱 회귀를 확장하여 다중 로지스틱 회귀를 수행할 수 있습니다.
  • 각 선택지 분석
    • 1. 종속변수(y)는 0과 1 사이의 확률값을 반환하므로 이진 분류에 적합하다.
      • 설명: 로지스틱 회귀는 종속변수로 0과 1 사이의 확률값을 반환하며, 이진 분류 문제에 적합합니다.
    • 2. 오즈값을 종속변수(y)로 사용할 수 없다.
      • 설명: 로지스틱 회귀에서 사용하는 것은 실제로는 오즈비(Odds Ratio)를 기반으로 한 것이며, 종속변수 자체가 오즈값이 되는 것은 아닙니다. 대신, 로짓 함수는 오즈비에 로그를 취한 형태로 표현되며, 이를 통해 독립변수와 종속변수 간의 관계를 모델링합니다.
    • 3. 오즈값이란 실패 확률을 성공 확률로 나눈 값이다.
      • 설명: 오즈값은 반대로, 성공 확률을 실패 확률로 나눈 값입니다.
    • 4. 독립변수가 여러 개가 있는 경우에도 다중회귀와 같은 방법으로 종속변수(y)의 확률값을 구할 수 있다.
      • 설명: 독립변수가 여러 개인 경우에도 다중 로지스틱 회귀를 사용하여 종속변수의 확률값을 구할 수 있습니다.

16. 군집분석을 수행하기 위해서는 입력 벡터 간의 거리 측정은 필수 작업이다. 다음 중 나머지 거리 측도와 다른 유형은 무엇인가?

  1. 시가 거리
  2. 코사인 유사도
  3. 자카드 계수
  4. 단순 일치 계수

해설

  • 각 선택지 분석
    • 1. 시가 거리 (Manhattan Distance)
      • 설명: 시가 거리는 두 점 사이의 거리를 계산할 때, 축을 따라 이동하는 거리를 합산하는 방식입니다. 주로 연속형 데이터에서 사용되며, 좌표 간의 차이를 절대값으로 계산하여 거리를 측정합니다.
      • 유형: 연속형 데이터에서 사용하는 거리 측정 방법입니다.
    • 2. 코사인 유사도 (Cosine Similarity)
      • 설명: 코사인 유사도는 두 벡터 간의 각도를 기반으로 유사성을 측정하는 방법입니다. 이는 벡터의 크기보다는 방향에 초점을 맞추며, 주로 범주형 데이터에서 사용됩니다. 특히 텍스트 마이닝이나 문서 간 유사성을 계산할 때 많이 사용됩니다.
      • 유형: 주로 범주형 데이터(이진형 데이터)에서 사용됩니다.
    • 3. 자카드 계수 (Jaccard Index)
      • 설명: 자카드 계수는 두 집합 간의 유사성을 측정하는 방법으로, 교집합의 크기를 합집합의 크기로 나눈 값입니다. 주로 이진형 데이터(0/1)에서 사용되며, 두 집합 간의 유사성을 나타냅니다.
      • 유형: 주로 범주형 데이터(이진형 데이터)에서 사용됩니다.
    • 4. 단순 일치 계수 (Simple Matching Coefficient)
      • 설명: 단순 일치 계수는 두 이진 벡터 간에 동일한 값(0 또는 1)이 나타나는 비율을 계산하는 방법입니다. 즉, 두 벡터가 얼마나 일치하는지를 측정합니다.
      • 유형: 주로 범주형 데이터(이진형 데이터)에서 사용됩니다.
  • 문제 분석
    • 시가 거리(Manhattan Distance)는 주로 연속형 데이터에서 사용되는 거리 측정 방법입니다.
    • 반면, 코사인 유사도, 자카드 계수, 그리고 단순 일치 계수는 모두 주로 범주형 데이터(특히 이진형 데이터)에서 사용되는 유사도 측정 방법입니다.

17. 다음 중 나머지와 다른 특성의 데이터마이닝 기법은 무엇인가?

  1. 로지스틱 회귀분석
  2. SOM
  3. SVM
  4. KNN

해설

  • 각 기법 설명
    • 1. 로지스틱 회귀분석 (Logistic Regression)
      • 설명: 로지스틱 회귀분석은 지도 학습(Supervised Learning) 기법 중 하나로, 이진 분류(Binary Classification) 문제를 해결하는 데 사용됩니다. 종속변수가 0 또는 1과 같은 이진 값을 가질 때, 독립변수와의 관계를 모델링하여 결과를 예측합니다. 주로 확률적 모델로 사용되며, 선형 회귀와 달리 시그모이드 함수를 사용하여 확률값을 반환합니다.
      • 특성: 지도 학습, 분류 기법
    • 2. SOM (Self-Organizing Map)
      • 설명: SOM은 비지도 학습(Unsupervised Learning) 기법 중 하나로, 고차원의 데이터를 저차원으로 시각화하는 데 사용됩니다. 주로 데이터의 패턴을 발견하고 군집화하는 데 사용되며, 인공신경망 기반의 알고리즘입니다.
      • 특성: 비지도 학습, 군집화 및 시각화 기법
    • 3. SVM (Support Vector Machine)
      • 설명: SVM은 지도 학습(Supervised Learning) 기법 중 하나로, 주로 분류 문제와 회귀 문제에 사용됩니다. SVM은 데이터를 분류할 수 있는 최적의 초평면을 찾아내어 두 그룹 간의 경계를 최대화하는 방식으로 동작합니다.
      • 특성: 지도 학습, 분류 및 회귀 기법
    • 4. KNN (K-Nearest Neighbors)
      • 설명: KNN은 지도 학습(Supervised Learning) 기법 중 하나로, 새로운 데이터 포인트가 들어왔을 때 가장 가까운 K개의 이웃 데이터를 참조하여 분류 또는 회귀를 수행합니다. 거리 기반의 간단한 알고리즘으로, 다수결 방식으로 분류하거나 평균값을 계산하여 회귀를 수행합니다.
      • 특성: 지도 학습, 분류 및 회귀 기법
  • 문제 분석
    • 로지스틱 회귀분석, SVM, 그리고 KNN은 모두 지도 학습(Supervised Learning)에 속하며, 주로 분류 또는 회귀 문제를 해결하는 데 사용됩니다.
    • 반면에, SOM(Self-Organizing Map)은 비지도 학습(Unsupervised Learning)에 속하며, 주로 데이터를 군집화하고 시각화하는 데 사용됩니다.

18. 인공신경망은 활성화 함수 선택이 매우 중요한 분석 기법이다. 이때 활성화 함수의 기울기가 0에 수렴하게 되어 학습이 잘 되지 않는 기울기 소실 문제가 발생할 수 있다. 다음 중 이런 문제를 해결하기 위해 활용 가능한 함수는 무엇인가?

  1. tanh 함수
  2. 소프트맥스 함수
  3. Relu 함수
  4. step 함수

해설

  • 기울기 소실 문제(Vanishing Gradient Problem)란?
    • 기울기 소실 문제는 인공신경망(특히 깊은 신경망)에서 발생하는 문제로, 역전파(Backpropagation) 과정에서 기울기(gradient)가 점점 작아져서 네트워크의 초기 층들로 전달되지 않는 현상입니다. 이로 인해 신경망이 제대로 학습되지 않으며, 가중치 업데이트가 거의 이루어지지 않게 됩니다.
  • 기울기 소실 문제의 주요 원인
    • Sigmoid tanh 같은 활성화 함수는 입력값이 크거나 작을 때, 기울기가 매우 작아지는 특징을 가지고 있습니다. 이로 인해 역전파 과정에서 기울기가 0에 가까워지는 문제가 발생합니다
  • 해결 방법
    • ReLU (Rectified Linear Unit) 함수와 그 변형 함수들(Leaky ReLU, Parametric ReLU)은 기울기 소실 문제를 해결하는 데 효과적입니다. ReLU 함수는 양수 입력에 대해 기울기가 1로 일정하게 유지되므로, 기울기가 사라지지 않고 잘 전달됩니다
  • 각 선택지 분석
    • 1. tanh 함수
      • 설명: tanh 함수는 시그모이드 함수와 유사한 형태로, 출력값이 -1과 1 사이에 위치합니다. 그러나 입력값이 매우 크거나 매우 작을 때, 기울기가 0에 가까워지는 문제가 발생하여 기울기 소실 문제를 일으킵니다.
      • 부적절한 이유: tanh 함수는 기울기 소실 문제를 해결하지 못하며, 오히려 그 원인이 될 수 있습니다
    • 2. 소프트맥스 함수 (Softmax)
      • 설명: 소프트맥스 함수는 주로 출력층에서 사용되며, 각 클래스에 속할 확률을 계산하는 데 사용됩니다. 이는 주로 분류 문제에서 사용되며, 내부 층의 활성화 함수로 사용되지 않습니다.
      • 부적절한 이유: 소프트맥스 함수는 출력층에서 확률을 계산하는 데 적합하지만, 기울기 소실 문제를 해결하는 데 직접적인 역할을 하지 않습니다.
    • 3. ReLU 함수 (Rectified Linear Unit)
      • 설명: ReLU 함수는 양수 입력에 대해 기울기가 1로 일정하게 유지되며, 음수 입력에 대해서는 0이 됩니다. 이 특성 덕분에 ReLU는 깊은 신경망에서도 기울기가 사라지지 않고 잘 전달되므로, 기울기 소실 문제를 해결하는 데 매우 효과적입니다
    • 4. step 함수
      • 설명: step 함수는 입력값이 특정 임계값보다 크면 1을 반환하고, 작으면 0을 반환하는 비선형 함수입니다. 그러나 step 함수는 미분 불가능하므로 신경망에서 역전파를 사용할 수 없습니다.
      • 부적절한 이유: step 함수는 미분 불가능하므로 신경망 학습에 적합하지 않으며, 기울기 소실 문제를 해결할 수 없습니다.
  • 추가 설명

ReLU 함수는 양수 입력에 대해 일정한 기울기를 유지하므로, 깊은 신경망에서도 기울기가 사라지지 않고 잘 전달됩니다.