본문 바로가기
[자격증]/ADsP 문제 풀이

[37회 기출 변형 문제]

by 에디터 윤슬 2024. 10. 25.
 

[1과목]

01. 다음 중 데이터 모델링에 대한 설명으로 올바른 것은?

  1. 데이터 포인트 간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스이다.
  2. 중복된 데이터를 최소화하여 데이터베이스를 효율적으로 관리하기 위한 일련의 프로세스이다.
  3. 모델 구축을 위해 입력 데이터 및 출력 데이터를 정의하는 작업을 의미한다.
  4. 구축된 모델에 대해 정확도 향상을 위해 보와나 작업을 수행하기 위한 작업을 의미한다.

해설

  • 개념 개요
    • 데이터 모델링은 데이터를 구조화하고 그 관계를 이해하기 위해 사용하는 과정입니다. 이는 데이터를 시각적으로 표현하여 데이터 간의 연결과 관계를 명확히 하는 데 도움을 줍니다.
  • 초등학생도 이해하기 쉬운 설명
    • 데이터 모델링은 데이터를 그림으로 그려서 서로 어떻게 연결되어 있는지를 보여주는 것입니다. 마치 친구들 사이의 관계를 그림으로 그려서 누가 누구랑 친구인지 쉽게 알 수 있도록 하는 것과 비슷합니다.
  • 각 문제 항목 해설
    • 데이터 포인트 간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스이다.
      • 이 설명이 데이터 모델링에 적합합니다. 데이터 모델링은 데이터 간의 관계를 시각적으로 표현하여 이해하는 과정입니다.
    • 중복된 데이터를 최소화하여 데이터베이스를 효율적으로 관리하기 위한 일련의 프로세스이다.
      • 이 설명은 데이터베이스 정규화에 더 가깝습니다. 정규화는 데이터를 중복 없이 저장하고 효율적으로 관리하기 위한 과정입니다.
    • 모델 구축을 위해 입력 데이터 및 출력 데이터를 정의하는 작업을 의미한다.
      • 이 설명은 머신러닝 모델 구축과 관련이 있습니다. 입력과 출력 데이터를 정의하는 것은 주로 머신러닝에서 사용됩니다.
    • 구축된 모델에 대해 정확도 향상을 위해 보완 작업을 수행하기 위한 작업을 의미한다.
      • 이 설명은 머신러닝 모델의 튜닝이나 개선 작업에 해당합니다.
  • 오답 노트
    • 2번: 데이터베이스 정규화와 혼동하지 않도록 주의해야 합니다. 정규화는 중복을 줄이는 과정이지만, 데이터 모델링은 주로 데이터 간의 관계를 시각적으로 표현하는 데 중점을 둡니다.
    • 3번: 머신러닝과 관련된 설명으로, 데이터 모델링과는 다른 영역입니다.
    • 4번: 머신러닝 모델의 성능 향상과 관련된 내용으로, 데이터베이스 설계와는 거리가 있습니다.

02. 다음은 데이터베이스에 작업을 수행하기 위한 명령어를 나열한 것이다. 다음 중 나머지와 그 성격이 다른 것은

  1. SELECT
  2. CREATE
  3. UPDATE
  4. DELETE

해설

  • 개념 개요
    • 데이터베이스 명령어는 주로 데이터 조작 언어(DML)와 데이터 정의 언어(DDL)로 나뉩니다. DML은 데이터의 조회, 삽입, 갱신, 삭제를 다루고, DDL은 데이터베이스 구조를 정의하거나 변경하는 데 사용됩니다.
  • 초등학생도 이해하기 쉬운 설명
    • 데이터베이스 명령어는 컴퓨터에게 데이터를 어떻게 다루라고 말하는 것과 같습니다. 어떤 명령어는 데이터를 보여주거나 바꾸고, 어떤 명령어는 새로운 데이터를 추가하거나 구조를 만드는 데 사용됩니다.
  • 각 문제 항목 해설
    • SELECT
      • 데이터를 조회하는 명령어입니다. DML에 속하며, 데이터베이스에서 정보를 가져오는 데 사용됩니다.
    • CREATE
      • 새로운 테이블이나 데이터베이스 구조를 만드는 명령어입니다. DDL에 속합니다.
    • UPDATE
      • 기존 데이터를 수정하는 명령어입니다. DML에 속합니다.
    • DELETE
      • 데이터를 삭제하는 명령어입니다. DML에 속합니다.
  • 오답 노트
    • SELECT, UPDATE, DELETE: 이 세 가지는 모두 DML에 속하며, 데이터를 조회하거나 수정, 삭제하는 데 사용됩니다.
    • CREATE: 이 명령어는 DDL에 속하며, 데이터베이스의 구조를 정의하거나 새롭게 만드는 데 사용됩니다. 따라서 나머지와 성격이 다릅니다.

[2과목]

01. 다음 중 과제의 우선순위를 결정할 때 고려해야 하는 요소가 아닌 것은?

  1. 전략적 중요도
  2. 비즈니스 성과 및 ROI
  3. 기술 적용 수준
  4. 분석 과제의 실행 용이성

해설

  • 개념 개요
    • 과제의 우선순위를 결정할 때는 여러 가지 요소를 고려하여 가장 중요한 작업에 자원을 집중해야 합니다. 일반적으로 전략적 중요성, 비즈니스 성과 및 ROI, 실행 용이성 등의 요소가 고려됩니다.
  • 초등학생도 이해하기 쉬운 설명
    • 우선순위를 정하는 것은 어떤 일을 먼저 할지 정하는 것입니다. 중요한 일부터 해야 모든 일이 잘 진행될 수 있어요. 그래서 우리는 그 일이 얼마나 중요한지, 얼마나 쉽게 할 수 있는지 등을 생각해 봅니다.
  • 각 문제 항목 해설
    • 전략적 중요도
      • 조직의 장기적인 목표와 얼마나 잘 맞는지를 평가합니다. 이는 우선순위를 정할 때 중요한 요소입니다.
    • 비즈니스 성과 및 ROI
      • 투자 대비 얼마나 많은 이익을 가져올 수 있는지를 평가합니다. 이는 프로젝트의 경제적 가치를 판단하는 데 중요합니다.
    • 기술 적용 수준
      • 기술이 얼마나 적용되어 있는지를 평가하는 것은 일반적으로 우선순위 결정에 직접적인 영향을 미치지 않습니다. 이는 기술적인 관점에서의 고려 사항일 수 있지만, 전략적 중요성이나 ROI와 같은 직접적인 우선순위 결정 요소는 아닙니다.
    • 분석 과제의 실행 용이성
      • 과제를 얼마나 쉽게 실행할 수 있는지를 평가합니다. 이는 자원 배분과 일정 계획에 중요한 영향을 미칩니다 .
    • 오답 노트
      • 기술 적용 수준은 다른 요소들과 달리 직접적으로 우선순위 결정에 영향을 미치는 요소가 아닙니다. 이는 기술적 관점에서의 고려 사항일 수 있지만, 전략적 중요성이나 ROI와 같은 직접적인 우선순위 결정 요소는 아닙니다.

02. 다음 중 능력 성숙도 통합 모델의 4단계에 대한 설명으로 올바른 것은?

  1. 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스 아래 통제되는 상태
  2. 위와 더불어 조직을 관리하기 위한 프로세스가 존재하는 상태
  3. 위와 더불어 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태
  4. 위와 더블어 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태

해설

  • 능력 성숙도 통합 모델(CMMI)
  • 개념 개요
    • CMMI는 조직의 프로세스 성숙도를 평가하고 개선하기 위한 프레임워크로, 5단계의 성숙도 수준을 정의합니다. 각 단계는 프로세스의 성숙도와 관리 수준을 나타냅니다.
  • 초등학생도 이해하기 쉬운 설명
    • CMMI는 회사가 일을 얼마나 잘하는지를 평가하는 방법입니다. 4단계에서는 숫자와 데이터를 사용해서 얼마나 잘하고 있는지 정확하게 측정할 수 있어요.
  • 각 문제 항목 해설
    • 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스 아래 통제되는 상태
      • 이는 CMMI의 2단계인 "관리" 수준에 해당합니다. 기본적인 프로젝트 관리가 이루어지는 단계입니다.
    • 위와 더불어 조직을 관리하기 위한 프로세스가 존재하는 상태
      • 이는 CMMI의 3단계인 "정의됨" 수준에 해당합니다. 조직 전반에 걸쳐 표준화된 프로세스를 유지하는 단계입니다.
    • 위와 더불어 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태
      • 이 설명이 CMMI의 4단계인 "양적 관리" 수준에 해당합니다. 데이터 기반으로 프로세스를 관리하고 개선하는 단계입니다.
    • 위와 더블어 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태
      • 이는 CMMI의 5단계인 "최적화" 수준에 해당합니다. 지속적인 개선과 혁신을 중시하는 단계입니다.
  • 오답 노트
    • 일정이나 비용 중심: 이는 초기 관리 단계로, 정량적 측정과는 관련이 없습니다.
    • 조직을 위한 프로세스 존재: 정량적 측정을 포함하지 않는 표준화된 프로세스가 강조됩니다.
    • 최적화된 프로세스: 이는 최종 단계로, 정량적 측정을 넘어 지속적인 개선을 목표로 합니다.

[3과목]

01. 모델 구축 시 데이터 분할을 통해 각각의 목적을 갖고 데이터를 활용한다. 다음 중 모델의 과적합에 대한 미세조정을 위해 활용되는 데이터는 무엇인가?

  1. 훈련용 데이터
  2. 검정용 데이터
  3. 평가용 데이터
  4. 보완용 데이터

해설

  • 개념 개요
    • 과적합은 모델이 학습 데이터에 너무 잘 맞춰져서 새로운 데이터에 일반화하는 능력이 떨어지는 현상을 말합니다. 이를 방지하기 위해 검정용 데이터를 사용하여 모델의 성능을 평가하고 조정합니다.
  • 초등학생도 이해하기 쉬운 설명
    • 모델이 공부를 너무 열심히 해서 시험 문제만 잘 풀고, 새로운 문제는 잘 못 푸는 상황을 막기 위해, 시험 전에 연습 문제를 풀어보는 것과 비슷합니다. 이 연습 문제가 검정용 데이터입니다.
  • 각 문제 항목 해설
    • 훈련용 데이터
      • 모델을 학습시키는 데 사용되는 데이터입니다. 과적합을 직접적으로 조정하는 데 사용되지는 않습니다.
    • 검정용 데이터
      • 모델의 과적합 여부를 판단하고 조정하기 위해 사용됩니다. 학습 과정 중에 모델의 성능을 평가하는 데 중요한 역할을 합니다.
    • 평가용 데이터
      • 최종적으로 모델의 성능을 평가하기 위해 사용됩니다. 검정용 데이터와는 다르게, 학습 과정 중에는 사용되지 않습니다.
    • 보완용 데이터
      • 일반적으로 사용되는 용어가 아닙니다.
  • 오답 노트
    • 훈련용 데이터와 평가용 데이터는 각각 학습과 최종 평가에 사용되며, 과적합 조정에는 직접적으로 사용되지 않습니다.
  1.  

02. 다음 중 연관분석의 특징에 대한 설명으로 잘못된 것은?

  1. 누구나 쉽게 이해하고 해설할 수 있다는 장점이 있다.
  2. 품목이 많으면 계산량이 기하급수적으로 증가하여 품목 세분화에 어려움이 있다.
  3. 목적변수가 없으므로 데이터 탐색에 용이하다.
  4. 순차 패턴은 IF ~ THEN ~ 형태로 결과가 도출되지 않는다.

해설

  • 개념 개요
    • 연관분석은 데이터 내에서 항목 간의 관련성을 파악하는 기법으로, 주로 "만약 A라면 B이다"와 같은 형태의 규칙을 발견하는 데 사용됩니다. 이는 데이터 탐색에 유용하며, 특정 사건이 발생했을 때 다른 사건이 함께 발생할 가능성을 분석합니다.
  • 초등학생도 이해하기 쉬운 설명
    • 연관분석은 마치 친구가 어떤 장난감을 사면 다른 장난감도 같이 사는 경우를 찾아내는 것과 같아요. 그래서 "만약 이 장난감을 샀다면 저 장난감도 살 거야"라는 식으로 결과를 정리할 수 있어요.
  • 각 문제 항목 해설
    • 누구나 쉽게 이해하고 해설할 수 있다는 장점이 있다.
      • 연관분석의 결과는 직관적으로 이해하기 쉬운 규칙 형태로 제공되므로, 많은 사람들이 쉽게 이해할 수 있습니다
    • 품목이 많으면 계산량이 기하급수적으로 증가하여 품목 세분화에 어려움이 있다.
      • 품목의 수가 많아질수록 연산량이 급증하여 계산이 복잡해질 수 있습니다. 이는 연관분석의 단점 중 하나입니다
    • 목적변수가 없으므로 데이터 탐색에 용이하다.
      • 연관분석은 비지도 학습의 일종으로, 목적변수가 없어 데이터 탐색에 유용하게 활용됩니다
    • 순차 패턴은 IF ~ THEN ~ 형태로 결과가 도출되지 않는다.
      • 이 설명은 잘못되었습니다. 연관분석의 결과는 일반적으로 "IF A THEN B"와 같은 규칙 형태로 도출됩니다

03. 다음 중 다차원 척도법에 대한 설명으로 잘못된 것은?

  1. 데이터를 저차원 공간에 위치시켜 데이터 간의 유사성을 시각화할 수 있는 기법이다.
  2. STRESS 값을 활용하여 적합도 판정을 할 수 있으며 그 값이 1에 가까울수록 적합이 매우 잘 되었다고 한다.
  3. 데이터가 서열척도인 경우에는 비계량적 방법을 활용해야 한다.
  4. 데이터가 비율척도, 구간척도인 경우에는 유클리디안 거리 행렬을 활용할 수 있다.

해설

  • 개념 개요
    • 다차원 척도법(MDS)은 데이터를 저차원 공간에 배치하여 데이터 간의 유사성을 시각적으로 표현하는 기법입니다. 이를 통해 데이터의 구조를 이해하고 분석할 수 있습니다.
  • 초등학생도 이해하기 쉬운 설명
    • 다차원 척도법은 친구들 사이의 거리를 그림으로 그려서 누가 누구랑 가까운지 보여주는 방법이에요. 이렇게 하면 친구들 사이의 관계를 쉽게 알 수 있어요.
  • 각 문제 항목 해설
    • 데이터를 저차원 공간에 위치시켜 데이터 간의 유사성을 시각화할 수 있는 기법이다.
      • 다차원 척도법은 데이터를 2차원 또는 3차원 공간에 배치하여 유사성을 시각화합니다.
    • STRESS 값을 활용하여 적합도 판정을 할 수 있으며 그 값이 1에 가까울수록 적합이 매우 잘 되었다고 한다.
      • STRESS 값은 모델의 부적합도를 나타내며, 값이 작을수록(0에 가까울수록) 모델이 잘 적합된 것입니다.
    • 데이터가 서열척도인 경우에는 비계량적 방법을 활용해야 한다.
      • 서열척도의 경우 비계량적 MDS를 사용하여 순서 정보를 보존합니다.
    • 데이터가 비율척도, 구간척도인 경우에는 유클리디안 거리 행렬을 활용할 수 있다.
      • 비율척도나 구간척도의 경우 계량적 MDS를 사용하며, 유클리디안 거리 행렬을 활용합니다.
  • 오답 노트
    • STRESS 값: STRESS 값이 1에 가까울수록 적합도가 높은 것이 아니라, 0에 가까울수록 적합도가 높습니다. 이는 MDS에서 모델의 적합도를 평가할 때 중요한 요소입니다.

04. 다음 중 신경망 모형에 대한 설명으로 잘못된 것은?

  1. 최적의 은닉층의 수와 은닉 노드의 수를 결정하는 데 어려움이 있다.
  2. 가중치 수정 작업 중 기울기가 0에 가깝게 되어 가중치 변화가 발생하지 않는 문제를 기울기 소실 문제라 한다.
  3. 순전파 알고리즘만을 사용하기 때문에 훈련속도가 매우 빠르다.
  4. 인송신경망을 기반으로 RNN, CNN, LSTM 등 다양한 확장 모델의 기반을 제공해주었다.

해설

  • 개념 개요
    • 신경망은 입력 데이터를 처리하여 예측을 수행하는 기계 학습 모델입니다. 신경망의 학습 과정에는 순전파(Forward Propagation)와 역전파(Back Propagation)가 모두 포함됩니다. 역전파는 가중치를 조정하여 모델의 예측 오류를 줄이는 중요한 단계입니다.
  • 초등학생도 이해하기 쉬운 설명
    • 신경망은 컴퓨터가 스스로 학습할 수 있게 도와주는 방법이에요. 컴퓨터가 문제를 풀 때, 답을 맞추기 위해 여러 번 연습하고, 틀린 부분을 고쳐나가는 과정이 필요해요. 이 과정에는 두 가지 방법이 있는데, 하나는 문제를 푸는 방법(순전파)이고, 다른 하나는 틀린 부분을 고치는 방법(역전파)이에요.
  • 각 문제 항목 해설
    • 최적의 은닉층의 수와 은닉 노드의 수를 결정하는 데 어려움이 있다.
      • 맞는 설명입니다. 신경망 설계에서 은닉층과 노드 수를 결정하는 것은 복잡한 문제로, 경험과 실험에 의존합니다.
    • 가중치 수정 작업 중 기울기가 0에 가깝게 되어 가중치 변화가 발생하지 않는 문제를 기울기 소실 문제라 한다.
      • 맞는 설명입니다. 기울기 소실 문제는 심층 신경망에서 발생하며, 가중치 업데이트가 어려워지는 현상입니다.
    • 순전파 알고리즘만을 사용하기 때문에 훈련속도가 매우 빠르다.
      • 잘못된 설명입니다. 신경망 학습에는 순전파와 역전파가 모두 필요합니다. 역전파 과정은 가중치를 조정하는 데 필수적이며, 이로 인해 훈련 속도가 느려질 수 있습니다.
    • 인공신경망을 기반으로 RNN, CNN, LSTM 등 다양한 확장 모델의 기반을 제공해주었다.
      • 맞는 설명입니다. 신경망은 RNN, CNN, LSTM 등 다양한 모델의 기초가 됩니다
         
        .
  • 오답 노트
    • 순전파 알고리즘만 사용: 신경망 훈련은 순전파뿐 아니라 역전파도 필수적입니다. 역전파 없이는 모델이 학습할 수 없습니다.

05. 다음 중 텍스트 마이닝에 대한 설명으로 잘못된 것은?

  1. 분석 대상이 텍스트라는 비정형 데이터이므로 비정형 데이터 마이닝으로 분류된다.
  2. 한국어의 경우 조사를 제거하거나 시제를 현재형으로 돌리는 등 단어의 어원을 찾는 작업을 토크나이저라 한다.
  3. 텍스트 마이닝의 대표적인 활용방안으로는 문서의 요약, 분류, 군집, 추출 등이 있다.
  4. 감성분석은 일종의 텍스트 마이닝으로 '오피니언 마이닝'으로도 불린다.

해설

  • 개념 개요
    • 텍스트 마이닝은 비정형 데이터인 텍스트에서 유용한 정보를 추출하는 기법입니다. 주로 자연어 처리 기법을 사용하여 텍스트를 분석하고, 문서 요약, 분류, 군집, 감성 분석 등의 다양한 작업에 활용됩니다.
  • 초등학생도 이해하기 쉬운 설명
    • 텍스트 마이닝은 컴퓨터가 책이나 글을 읽고 중요한 정보를 찾아내는 방법이에요. 예를 들어, 글에서 어떤 단어가 많이 나오는지 알아보거나, 글의 내용을 요약하는 데 사용할 수 있어요.
  • 각 문제 항목 해설
    • 분석 대상이 텍스트라는 비정형 데이터이므로 비정형 데이터 마이닝으로 분류된다.
      • 맞는 설명입니다. 텍스트 마이닝은 비정형 데이터인 텍스트를 분석합니다.
    • 한국어의 경우 조사를 제거하거나 시제를 현재형으로 돌리는 등 단어의 어원을 찾는 작업을 토크나이저라 한다.
      • 잘못된 설명입니다. 이러한 작업은 일반적으로 형태소 분석이나 어간 추출이라고 하며, 토크나이저는 텍스트를 작은 단위로 나누는 작업입니다.
    • 텍스트 마이닝의 대표적인 활용방안으로는 문서의 요약, 분류, 군집, 추출 등이 있다.
      • 맞는 설명입니다. 텍스트 마이닝은 다양한 분석 작업에 활용됩니다
    • 감성분석은 일종의 텍스트 마이닝으로 '오피니언 마이닝'으로도 불린다.
    • 맞는 설명입니다. 감성 분석은 텍스트에서 감정을 추출하는 작업으로, 오피니언 마이닝이라고도 합니다
  • 오답 노트
    • 토크나이저: 토크나이저는 텍스트를 단어 또는 문장 등의 작은 단위로 나누는 작업입니다. 형태소 분석이나 어간 추출과 혼동하지 않도록 주의해야 합니다.

06. 다음 중 시계열 모형에 대한 설명으로 잘못된 것은?

  1. 자기회귀모형은 특정 시점의 자료는 그 이전 n개의 데이터에 의해 설명될 수 있다는 전제하에 모형을 구축하는 것이다.
  2. 이동평균모형은 이전 시점들의 백색 잡음의 선형결합으로 표현될 수 있는 모형을 의미한다.
  3. 자기상관함수 또는 부분자기상관함수를 활용해 시차 값 n을 판별할 수 있다.
  4. 자기회귀누적이동평균모형 ARIMA(p, d, q)에서 p는 시계열 자료를 정상화하기 위해 필요한 차분 횟수를 의미한다.

해설

  • ARIMA(p, d, q) 모델은 시계열 데이터를 분석하고 예측하는 데 사용되는 통계적 모델입니다. 이 모델은 다음과 같은 세 가지 주요 구성 요소로 이루어져 있습니다:
    • 자기회귀(AR, Autoregressive) 부분: 과거의 값들이 현재 값에 미치는 영향을 모델링합니다. 여기서 p는 과거 관측값의 수를 나타냅니다.
    • 차분(I, Integrated) 부분: 시계열 데이터를 정상화하기 위해 차분을 사용합니다. d는 차분의 횟수를 나타내며, 비정상성을 제거하는 데 사용됩니다
    • 이동 평균(MA, Moving Average) 부분: 과거의 예측 오차가 현재 값에 미치는 영향을 모델링합니다. q는 과거 오차항의 수를 나타냅니다

07. 다음 중 회귀분석의 결과를 해석하는 방법을 잘못 설명한 것은?

  1. p-value 값을 확인하고 모형의 유의성을 판단한다.
  2. 각 독립변수의 회귀계수를 확인하고 유의한 변수를 판단한다.
  3. 다중회귀분석의 경우 다중공선성의 여부를 판단해야 한다.
  4. 결정계수를 확인하고 모형의 설명력을 판단한다.

해설

  • 개념 개요
    • 회귀분석은 종속변수와 하나 이상의 독립변수 간의 관계를 모델링하는 통계 기법입니다. 이를 통해 변수 간의 관계를 이해하고 예측할 수 있습니다.
  • 초등학생도 이해하기 쉬운 설명
    • 회귀분석은 마치 여러 가지 요인들이 결과에 어떻게 영향을 미치는지를 알아보는 방법이에요. 예를 들어, 공부 시간과 성적이 어떻게 관련이 있는지를 알아보는 것과 비슷해요.
  • 각 문제 항목 해설
    • p-value 값을 확인하고 모형의 유의성을 판단한다.
      • P-value는 각 독립변수가 결과에 미치는 영향이 의미 있는지를 확인하는 데 사용됩니다. 작을수록 중요합니다.
    • 각 독립변수의 회귀계수를 확인하고 유의한 변수를 판단한다.
      • 잘못된 설명입니다. 회귀계수는 변수의 영향력을 나타내지만, 유의성 여부는 반드시 p-value를 통해 판단해야 합니다.
    • 다중회귀분석의 경우 다중공선성의 여부를 판단해야 한다.
      • 다중공선성은 독립 변수들 간에 강한 상관관계가 있을 때 발생하며, 이를 해결해야 정확한 분석이 가능합니다.
    • 결정계수를 확인하고 모형의 설명력을 판단한다.
      • 결정계수(R-squared)는 모델이 데이터 변동을 얼마나 잘 설명하는지를 나타냅니다.
  • 오답 노트
    • 회귀계수와 유의성: 회귀계수만으로는 유의성을 판단할 수 없습니다. 반드시 p-value를 함께 고려하여 판단해야 합니다.

08. 서열척도인 두 변수 값의 관계를 나타낸 값으로 한 변수를 단조 증가 함수로 바꿔 다른 변수를 표현할 수 있는 상관계수는 무엇인가?

  1. 자카드 계수
  2. 피어슨 상관계수
  3. 스피어만 상관계수
  4. 단순 일치 계수

해설

  • 개념 개요
    • 스피어만 상관계수는 두 변수 간의 순위 상관관계를 측정하는 비모수적 통계 지표입니다. 이는 데이터의 순위를 기반으로 하여 두 변수 간의 단조 관계를 평가합니다. 스피어만 상관계수는 피어슨 상관계수와 달리 데이터의 분포에 대한 가정이 필요 없으며, 비선형적인 관계도 평가할 수 있습니다.
  • 초등학생도 이해하기 쉬운 설명
    • 스피어만 상관계수는 친구들 사이에서 누가 더 키가 큰지, 누가 더 달리기를 잘하는지를 순서대로 비교하는 방법이에요. 키와 달리기 실력 사이에 어떤 관계가 있는지 알아보는 거죠. 이렇게 순서를 비교하면 숫자가 꼭 정확하지 않아도 관계를 알 수 있어요.
  • 각 문제 항목 해설
    • 자카드 계수
      • 두 집합 간의 유사성을 측정하는 지표로, 주로 집합의 교집합과 합집합을 비교하여 유사성을 평가합니다. 서열척도와는 관련이 없습니다.
    • 피어슨 상관계수
      • 두 변수 간의 선형 상관관계를 측정하는 지표로, 연속형 데이터에 적합합니다. 서열척도 데이터에는 적절하지 않습니다.
    • 스피어만 상관계수
      • 서열척도 데이터 간의 순위 상관관계를 측정하는 비모수적 지표입니다. 한 변수를 단조 증가 함수로 변환하여 다른 변수를 표현할 수 있습니다.
    • 단순 일치 계수
      • 두 변수 간의 일치 정도를 측정하는 지표로, 주로 범주형 데이터에 사용됩니다. 서열척도와는 관련이 없습니다.
  • 오답 노트
    • 자카드 계수 단순 일치 계수는 서열척도 데이터와 직접적인 관련이 없습니다.
    • 피어슨 상관계수는 선형 관계를 가정하므로, 서열척도 데이터에는 적합하지 않습니다.
    • 스피어만 상관계수가 서열척도 데이터 분석에 적합하며, 단조 증가 함수로 변환하여 관계를 나타낼 수 있습니다.

09. 다음 중 의사결정나무에 대한 설명으로 잘못된 것은?

  1. 이상값에 민감하지 않으며 데이터의 선형성, 정규성 등의 가정이 불필요해 가장 보편적인 분류 방법 중 하나이다.
  2. 부모마디로부터 자식마디로 내려갈수록 변수의 중요도가 낮아져 변수 사이의 중료도를 판단하기에 용이하다.
  3. 가지치기 및 정지규칙과 같은 부가적인 요소를 설정해 과적합을 미연에 방지한다.
  4. 종속변수가 연속형인 경우에도 CHAID 또는 CART 알고리즘을 활용하여 의사결정나무를 구축할 수 있다.

해설

  • 개념 개요
    • 의사결정나무(Decision Tree)는 데이터를 분류하거나 예측하는 데 사용되는 기계 학습 알고리즘입니다. 트리 구조를 사용하여 데이터의 특성을 기반으로 분기하고, 최종적으로 결과를 도출합니다. 의사결정나무는 직관적이고 해석하기 쉬워 널리 사용됩니다.
  • 초등학생도 이해하기 쉬운 설명
    • 의사결정나무는 마치 스무고개 게임처럼 질문을 통해 답을 찾아가는 방법이에요. 예를 들어, "이 동물이 네 발이 있나요?" 같은 질문을 던지면서 점점 더 구체적인 답을 찾아가는 거죠.
  • 각 문제 항목 해설
    • 이상값에 민감하지 않으며 데이터의 선형성, 정규성 등의 가정이 불필요해 가장 보편적인 분류 방법 중 하나이다.
      • 맞는 설명입니다. 의사결정나무는 비모수적 방법으로, 이상값이나 데이터의 분포에 민감하지 않습니다.
    • 부모마디로부터 자식마디로 내려갈수록 변수의 중요도가 낮아져 변수 사이의 중요도를 판단하기에 용이하다.
      • 잘못된 설명입니다. 의사결정나무에서 변수의 중요도는 트리 전체에서 정보 이득이나 지니 계수 감소 등을 통해 평가되며, 부모-자식 관계로 단순히 중요도를 판단하지 않습니다
    • 가지치기 및 정지규칙과 같은 부가적인 요소를 설정해 과적합을 미연에 방지한다.
      • 맞는 설명입니다. 가지치기(pruning)와 정지규칙은 트리의 복잡도를 줄여 과적합을 방지하는 데 사용됩니다
    • 종속변수가 연속형인 경우에도 CHAID 또는 CART 알고리즘을 활용하여 의사결정나무를 구축할 수 있다.
      • 맞는 설명입니다. CART 알고리즘은 회귀 및 분류 문제 모두에 사용되며, 연속형 종속변수를 처리할 수 있습니다
  • 오답 노트
    • 부모-자식 마디의 변수 중요도: 의사결정나무에서 변수 중요도는 각 노드에서의 분기 기준으로 결정되며, 부모-자식 관계로 단순히 평가되지 않습니다. 이는 트리 전체에서 정보 이득이나 지니 계수 감소 등의 지표를 통해 평가됩니다.

10. 다음 중 분산분석을 수행하기 위한 가정 사항으로 적절하지 않은 것은?

  1. 정규성
  2. 등분산성
  3. 독립성
  4. 선형성

해설

  • 개념 개요
    • 분산분석은 여러 그룹 간의 평균 차이를 검정하기 위한 통계적 방법입니다. 이를 수행하기 위해 몇 가지 가정이 필요합니다.
  • 초등학생도 이해하기 쉬운 설명
    • 분산분석은 여러 그룹이 서로 다른지 알아보는 방법이에요. 이 방법을 쓰려면 몇 가지 규칙을 따라야 해요. 예를 들어, 모든 그룹의 데이터가 비슷한 모양이어야 하고, 서로 영향을 주지 않아야 해요.
  • 각 문제 항목 해설
    • 정규성
      • 각 그룹의 데이터가 정규분포를 따라야 한다는 가정입니다.
    • 등분산성
      • 모든 그룹의 분산이 같아야 한다는 가정입니다.
    • 독립성
      • 각 데이터 포인트가 서로 독립적이어야 한다는 가정입니다.
    • 선형성
      • 잘못된 설명입니다. 분산분석에서는 선형성을 가정하지 않습니다. 이는 회귀분석과 관련된 가정입니다.

11. 다음 중 보기와 같은 상황이 주어졌을 때 수행해야 할 가설검정의 종류로 올바른 것은?

한 백화점에서 A 상품, B 상품, C 상품 모두를 구매한 고객들을 대상으로 어떤 상품이 더 높은 만족도를 보였는지 각 제품에 대하여 선호도 점수를 조사했다. 단순히 결과를 비교하기에 앞서 각 상품에 VVIP 고객, VIP 고객, 일반 고객을 나누어 점수를 비교해야 할 것으로 판단된다.
  1. 이표본 T 검정
  2. 카이제곱 검정
  3. 일원분산분석
  4. 이원분산분석

해설

  • 개념 개요
    • 이원분산분석은 두 개 이상의 범주형 독립변수가 종속변수에 미치는 영향을 분석하는 통계적 방법입니다. 이는 각 독립변수의 주효과뿐만 아니라, 두 독립변수 간의 상호작용 효과도 평가할 수 있습니다.
  • 초등학생도 이해하기 쉬운 설명
    • 이원분산분석은 마치 여러 가지 맛의 아이스크림을 서로 다른 크기의 컵에 담아 맛을 비교하는 것과 같아요. 여기서 맛과 컵 크기가 각각 독립변수이고, 맛의 점수가 종속변수예요. 이 분석을 통해 어떤 맛이 더 인기 있는지, 그리고 컵 크기에 따라 그 인기가 어떻게 달라지는지를 알 수 있어요.
  • 각 문제 항목 해설
    • 이표본 T 검정
      • 두 그룹 간의 평균 차이를 비교하는 데 사용됩니다. 세 개 이상의 그룹을 비교할 때는 적절하지 않습니다.
    • 카이제곱 검정
      • 범주형 데이터 간의 독립성이나 적합성을 검정하는 데 사용됩니다. 평균 차이를 비교하는 분산분석과는 다릅니다.
    • 일원분산분석
      • 하나의 독립변수에 대한 여러 그룹 간 평균 차이를 분석합니다. 두 개 이상의 독립변수를 고려해야 하는 경우에는 적절하지 않습니다.
    • 이원분산분석
      • 두 개 이상의 범주형 독립변수가 종속변수에 미치는 영향을 분석합니다. 주어진 상황에서 VVIP, VIP, 일반 고객이라는 두 가지 범주(고객 유형 및 상품)를 고려하므로 이원분산분석이 적합합니다.
  • 오답 노트
    • 이표본 T 검정과 카이제곱 검정은 각각 두 그룹 간의 평균 차이나 범주형 데이터의 관계를 분석하는 데 사용되며, 다중 그룹 평균 비교에는 적합하지 않습니다.
    • 일원분산분석은 하나의 독립변수를 고려하므로, 두 개 이상의 범주형 변수를 고려해야 하는 상황에는 적절하지 않습니다.

'[자격증] > ADsP 문제 풀이' 카테고리의 다른 글

[39회 기출 변형 문제]  (0) 2024.10.27
[38회 기출 변형 문제]  (0) 2024.10.27
[3회 모의고사]  (2) 2024.10.24
[2회 모의고사]  (0) 2024.10.23
[1회 모의고사]  (1) 2024.10.22