[1과목]
01. 다음 중 데이터 모델링에 대한 설명으로 올바른 것은?
- 데이터 포인트 간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스이다.
- 중복된 데이터를 최소화하여 데이터베이스를 효율적으로 관리하기 위한 일련의 프로세스이다.
- 모델 구축을 위해 입력 데이터 및 출력 데이터를 정의하는 작업을 의미한다.
- 구축된 모델에 대해 정확도 향상을 위해 보와나 작업을 수행하기 위한 작업을 의미한다.
해설
- 개념 개요
- 데이터 모델링은 데이터를 구조화하고 그 관계를 이해하기 위해 사용하는 과정입니다. 이는 데이터를 시각적으로 표현하여 데이터 간의 연결과 관계를 명확히 하는 데 도움을 줍니다.
- 초등학생도 이해하기 쉬운 설명
- 데이터 모델링은 데이터를 그림으로 그려서 서로 어떻게 연결되어 있는지를 보여주는 것입니다. 마치 친구들 사이의 관계를 그림으로 그려서 누가 누구랑 친구인지 쉽게 알 수 있도록 하는 것과 비슷합니다.
- 각 문제 항목 해설
- 데이터 포인트 간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스이다.
- 이 설명이 데이터 모델링에 적합합니다. 데이터 모델링은 데이터 간의 관계를 시각적으로 표현하여 이해하는 과정입니다.
- 중복된 데이터를 최소화하여 데이터베이스를 효율적으로 관리하기 위한 일련의 프로세스이다.
- 이 설명은 데이터베이스 정규화에 더 가깝습니다. 정규화는 데이터를 중복 없이 저장하고 효율적으로 관리하기 위한 과정입니다.
- 모델 구축을 위해 입력 데이터 및 출력 데이터를 정의하는 작업을 의미한다.
- 이 설명은 머신러닝 모델 구축과 관련이 있습니다. 입력과 출력 데이터를 정의하는 것은 주로 머신러닝에서 사용됩니다.
- 구축된 모델에 대해 정확도 향상을 위해 보완 작업을 수행하기 위한 작업을 의미한다.
- 이 설명은 머신러닝 모델의 튜닝이나 개선 작업에 해당합니다.
- 데이터 포인트 간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스이다.
- 오답 노트
- 2번: 데이터베이스 정규화와 혼동하지 않도록 주의해야 합니다. 정규화는 중복을 줄이는 과정이지만, 데이터 모델링은 주로 데이터 간의 관계를 시각적으로 표현하는 데 중점을 둡니다.
- 3번: 머신러닝과 관련된 설명으로, 데이터 모델링과는 다른 영역입니다.
- 4번: 머신러닝 모델의 성능 향상과 관련된 내용으로, 데이터베이스 설계와는 거리가 있습니다.
02. 다음은 데이터베이스에 작업을 수행하기 위한 명령어를 나열한 것이다. 다음 중 나머지와 그 성격이 다른 것은
- SELECT
- CREATE
- UPDATE
- DELETE
해설
- 개념 개요
- 데이터베이스 명령어는 주로 데이터 조작 언어(DML)와 데이터 정의 언어(DDL)로 나뉩니다. DML은 데이터의 조회, 삽입, 갱신, 삭제를 다루고, DDL은 데이터베이스 구조를 정의하거나 변경하는 데 사용됩니다.
- 초등학생도 이해하기 쉬운 설명
- 데이터베이스 명령어는 컴퓨터에게 데이터를 어떻게 다루라고 말하는 것과 같습니다. 어떤 명령어는 데이터를 보여주거나 바꾸고, 어떤 명령어는 새로운 데이터를 추가하거나 구조를 만드는 데 사용됩니다.
- 각 문제 항목 해설
- SELECT
- 데이터를 조회하는 명령어입니다. DML에 속하며, 데이터베이스에서 정보를 가져오는 데 사용됩니다.
- CREATE
- 새로운 테이블이나 데이터베이스 구조를 만드는 명령어입니다. DDL에 속합니다.
- UPDATE
- 기존 데이터를 수정하는 명령어입니다. DML에 속합니다.
- DELETE
- 데이터를 삭제하는 명령어입니다. DML에 속합니다.
- SELECT
- 오답 노트
- SELECT, UPDATE, DELETE: 이 세 가지는 모두 DML에 속하며, 데이터를 조회하거나 수정, 삭제하는 데 사용됩니다.
- CREATE: 이 명령어는 DDL에 속하며, 데이터베이스의 구조를 정의하거나 새롭게 만드는 데 사용됩니다. 따라서 나머지와 성격이 다릅니다.
[2과목]
01. 다음 중 과제의 우선순위를 결정할 때 고려해야 하는 요소가 아닌 것은?
- 전략적 중요도
- 비즈니스 성과 및 ROI
- 기술 적용 수준
- 분석 과제의 실행 용이성
해설
- 개념 개요
- 과제의 우선순위를 결정할 때는 여러 가지 요소를 고려하여 가장 중요한 작업에 자원을 집중해야 합니다. 일반적으로 전략적 중요성, 비즈니스 성과 및 ROI, 실행 용이성 등의 요소가 고려됩니다.
- 초등학생도 이해하기 쉬운 설명
- 우선순위를 정하는 것은 어떤 일을 먼저 할지 정하는 것입니다. 중요한 일부터 해야 모든 일이 잘 진행될 수 있어요. 그래서 우리는 그 일이 얼마나 중요한지, 얼마나 쉽게 할 수 있는지 등을 생각해 봅니다.
- 각 문제 항목 해설
- 전략적 중요도
- 조직의 장기적인 목표와 얼마나 잘 맞는지를 평가합니다. 이는 우선순위를 정할 때 중요한 요소입니다.
- 비즈니스 성과 및 ROI
- 투자 대비 얼마나 많은 이익을 가져올 수 있는지를 평가합니다. 이는 프로젝트의 경제적 가치를 판단하는 데 중요합니다.
- 기술 적용 수준
- 기술이 얼마나 적용되어 있는지를 평가하는 것은 일반적으로 우선순위 결정에 직접적인 영향을 미치지 않습니다. 이는 기술적인 관점에서의 고려 사항일 수 있지만, 전략적 중요성이나 ROI와 같은 직접적인 우선순위 결정 요소는 아닙니다.
- 분석 과제의 실행 용이성
- 과제를 얼마나 쉽게 실행할 수 있는지를 평가합니다. 이는 자원 배분과 일정 계획에 중요한 영향을 미칩니다 .
- 오답 노트
- 기술 적용 수준은 다른 요소들과 달리 직접적으로 우선순위 결정에 영향을 미치는 요소가 아닙니다. 이는 기술적 관점에서의 고려 사항일 수 있지만, 전략적 중요성이나 ROI와 같은 직접적인 우선순위 결정 요소는 아닙니다.
- 전략적 중요도
02. 다음 중 능력 성숙도 통합 모델의 4단계에 대한 설명으로 올바른 것은?
- 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스 아래 통제되는 상태
- 위와 더불어 조직을 관리하기 위한 프로세스가 존재하는 상태
- 위와 더불어 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태
- 위와 더블어 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태
해설
- 능력 성숙도 통합 모델(CMMI)
- 개념 개요
- CMMI는 조직의 프로세스 성숙도를 평가하고 개선하기 위한 프레임워크로, 5단계의 성숙도 수준을 정의합니다. 각 단계는 프로세스의 성숙도와 관리 수준을 나타냅니다.
- 초등학생도 이해하기 쉬운 설명
- CMMI는 회사가 일을 얼마나 잘하는지를 평가하는 방법입니다. 4단계에서는 숫자와 데이터를 사용해서 얼마나 잘하고 있는지 정확하게 측정할 수 있어요.
- 각 문제 항목 해설
- 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스 아래 통제되는 상태
- 이는 CMMI의 2단계인 "관리" 수준에 해당합니다. 기본적인 프로젝트 관리가 이루어지는 단계입니다.
- 위와 더불어 조직을 관리하기 위한 프로세스가 존재하는 상태
- 이는 CMMI의 3단계인 "정의됨" 수준에 해당합니다. 조직 전반에 걸쳐 표준화된 프로세스를 유지하는 단계입니다.
- 위와 더불어 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태
- 이 설명이 CMMI의 4단계인 "양적 관리" 수준에 해당합니다. 데이터 기반으로 프로세스를 관리하고 개선하는 단계입니다.
- 위와 더블어 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태
- 이는 CMMI의 5단계인 "최적화" 수준에 해당합니다. 지속적인 개선과 혁신을 중시하는 단계입니다.
- 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스 아래 통제되는 상태
- 오답 노트
- 일정이나 비용 중심: 이는 초기 관리 단계로, 정량적 측정과는 관련이 없습니다.
- 조직을 위한 프로세스 존재: 정량적 측정을 포함하지 않는 표준화된 프로세스가 강조됩니다.
- 최적화된 프로세스: 이는 최종 단계로, 정량적 측정을 넘어 지속적인 개선을 목표로 합니다.
[3과목]
01. 모델 구축 시 데이터 분할을 통해 각각의 목적을 갖고 데이터를 활용한다. 다음 중 모델의 과적합에 대한 미세조정을 위해 활용되는 데이터는 무엇인가?
- 훈련용 데이터
- 검정용 데이터
- 평가용 데이터
- 보완용 데이터
해설
- 개념 개요
- 과적합은 모델이 학습 데이터에 너무 잘 맞춰져서 새로운 데이터에 일반화하는 능력이 떨어지는 현상을 말합니다. 이를 방지하기 위해 검정용 데이터를 사용하여 모델의 성능을 평가하고 조정합니다.
- 초등학생도 이해하기 쉬운 설명
- 모델이 공부를 너무 열심히 해서 시험 문제만 잘 풀고, 새로운 문제는 잘 못 푸는 상황을 막기 위해, 시험 전에 연습 문제를 풀어보는 것과 비슷합니다. 이 연습 문제가 검정용 데이터입니다.
- 각 문제 항목 해설
- 훈련용 데이터
- 모델을 학습시키는 데 사용되는 데이터입니다. 과적합을 직접적으로 조정하는 데 사용되지는 않습니다.
- 검정용 데이터
- 모델의 과적합 여부를 판단하고 조정하기 위해 사용됩니다. 학습 과정 중에 모델의 성능을 평가하는 데 중요한 역할을 합니다.
- 평가용 데이터
- 최종적으로 모델의 성능을 평가하기 위해 사용됩니다. 검정용 데이터와는 다르게, 학습 과정 중에는 사용되지 않습니다.
- 보완용 데이터
- 일반적으로 사용되는 용어가 아닙니다.
- 훈련용 데이터
- 오답 노트
- 훈련용 데이터와 평가용 데이터는 각각 학습과 최종 평가에 사용되며, 과적합 조정에는 직접적으로 사용되지 않습니다.
02. 다음 중 연관분석의 특징에 대한 설명으로 잘못된 것은?
- 누구나 쉽게 이해하고 해설할 수 있다는 장점이 있다.
- 품목이 많으면 계산량이 기하급수적으로 증가하여 품목 세분화에 어려움이 있다.
- 목적변수가 없으므로 데이터 탐색에 용이하다.
- 순차 패턴은 IF ~ THEN ~ 형태로 결과가 도출되지 않는다.
해설
- 개념 개요
- 연관분석은 데이터 내에서 항목 간의 관련성을 파악하는 기법으로, 주로 "만약 A라면 B이다"와 같은 형태의 규칙을 발견하는 데 사용됩니다. 이는 데이터 탐색에 유용하며, 특정 사건이 발생했을 때 다른 사건이 함께 발생할 가능성을 분석합니다.
- 초등학생도 이해하기 쉬운 설명
- 연관분석은 마치 친구가 어떤 장난감을 사면 다른 장난감도 같이 사는 경우를 찾아내는 것과 같아요. 그래서 "만약 이 장난감을 샀다면 저 장난감도 살 거야"라는 식으로 결과를 정리할 수 있어요.
- 각 문제 항목 해설
- 누구나 쉽게 이해하고 해설할 수 있다는 장점이 있다.
- 연관분석의 결과는 직관적으로 이해하기 쉬운 규칙 형태로 제공되므로, 많은 사람들이 쉽게 이해할 수 있습니다
- 품목이 많으면 계산량이 기하급수적으로 증가하여 품목 세분화에 어려움이 있다.
- 품목의 수가 많아질수록 연산량이 급증하여 계산이 복잡해질 수 있습니다. 이는 연관분석의 단점 중 하나입니다
- 목적변수가 없으므로 데이터 탐색에 용이하다.
- 연관분석은 비지도 학습의 일종으로, 목적변수가 없어 데이터 탐색에 유용하게 활용됩니다
- 순차 패턴은 IF ~ THEN ~ 형태로 결과가 도출되지 않는다.
- 이 설명은 잘못되었습니다. 연관분석의 결과는 일반적으로 "IF A THEN B"와 같은 규칙 형태로 도출됩니다
- 누구나 쉽게 이해하고 해설할 수 있다는 장점이 있다.
03. 다음 중 다차원 척도법에 대한 설명으로 잘못된 것은?
- 데이터를 저차원 공간에 위치시켜 데이터 간의 유사성을 시각화할 수 있는 기법이다.
- STRESS 값을 활용하여 적합도 판정을 할 수 있으며 그 값이 1에 가까울수록 적합이 매우 잘 되었다고 한다.
- 데이터가 서열척도인 경우에는 비계량적 방법을 활용해야 한다.
- 데이터가 비율척도, 구간척도인 경우에는 유클리디안 거리 행렬을 활용할 수 있다.
해설
- 개념 개요
- 다차원 척도법(MDS)은 데이터를 저차원 공간에 배치하여 데이터 간의 유사성을 시각적으로 표현하는 기법입니다. 이를 통해 데이터의 구조를 이해하고 분석할 수 있습니다.
- 초등학생도 이해하기 쉬운 설명
- 다차원 척도법은 친구들 사이의 거리를 그림으로 그려서 누가 누구랑 가까운지 보여주는 방법이에요. 이렇게 하면 친구들 사이의 관계를 쉽게 알 수 있어요.
- 각 문제 항목 해설
- 데이터를 저차원 공간에 위치시켜 데이터 간의 유사성을 시각화할 수 있는 기법이다.
- 다차원 척도법은 데이터를 2차원 또는 3차원 공간에 배치하여 유사성을 시각화합니다.
- STRESS 값을 활용하여 적합도 판정을 할 수 있으며 그 값이 1에 가까울수록 적합이 매우 잘 되었다고 한다.
- STRESS 값은 모델의 부적합도를 나타내며, 값이 작을수록(0에 가까울수록) 모델이 잘 적합된 것입니다.
- 데이터가 서열척도인 경우에는 비계량적 방법을 활용해야 한다.
- 서열척도의 경우 비계량적 MDS를 사용하여 순서 정보를 보존합니다.
- 데이터가 비율척도, 구간척도인 경우에는 유클리디안 거리 행렬을 활용할 수 있다.
- 비율척도나 구간척도의 경우 계량적 MDS를 사용하며, 유클리디안 거리 행렬을 활용합니다.
- 데이터를 저차원 공간에 위치시켜 데이터 간의 유사성을 시각화할 수 있는 기법이다.
- 오답 노트
- STRESS 값: STRESS 값이 1에 가까울수록 적합도가 높은 것이 아니라, 0에 가까울수록 적합도가 높습니다. 이는 MDS에서 모델의 적합도를 평가할 때 중요한 요소입니다.
04. 다음 중 신경망 모형에 대한 설명으로 잘못된 것은?
- 최적의 은닉층의 수와 은닉 노드의 수를 결정하는 데 어려움이 있다.
- 가중치 수정 작업 중 기울기가 0에 가깝게 되어 가중치 변화가 발생하지 않는 문제를 기울기 소실 문제라 한다.
- 순전파 알고리즘만을 사용하기 때문에 훈련속도가 매우 빠르다.
- 인송신경망을 기반으로 RNN, CNN, LSTM 등 다양한 확장 모델의 기반을 제공해주었다.
해설
- 개념 개요
- 신경망은 입력 데이터를 처리하여 예측을 수행하는 기계 학습 모델입니다. 신경망의 학습 과정에는 순전파(Forward Propagation)와 역전파(Back Propagation)가 모두 포함됩니다. 역전파는 가중치를 조정하여 모델의 예측 오류를 줄이는 중요한 단계입니다.
- 초등학생도 이해하기 쉬운 설명
- 신경망은 컴퓨터가 스스로 학습할 수 있게 도와주는 방법이에요. 컴퓨터가 문제를 풀 때, 답을 맞추기 위해 여러 번 연습하고, 틀린 부분을 고쳐나가는 과정이 필요해요. 이 과정에는 두 가지 방법이 있는데, 하나는 문제를 푸는 방법(순전파)이고, 다른 하나는 틀린 부분을 고치는 방법(역전파)이에요.
- 각 문제 항목 해설
- 최적의 은닉층의 수와 은닉 노드의 수를 결정하는 데 어려움이 있다.
- 맞는 설명입니다. 신경망 설계에서 은닉층과 노드 수를 결정하는 것은 복잡한 문제로, 경험과 실험에 의존합니다.
- 가중치 수정 작업 중 기울기가 0에 가깝게 되어 가중치 변화가 발생하지 않는 문제를 기울기 소실 문제라 한다.
- 맞는 설명입니다. 기울기 소실 문제는 심층 신경망에서 발생하며, 가중치 업데이트가 어려워지는 현상입니다.
- 순전파 알고리즘만을 사용하기 때문에 훈련속도가 매우 빠르다.
- 잘못된 설명입니다. 신경망 학습에는 순전파와 역전파가 모두 필요합니다. 역전파 과정은 가중치를 조정하는 데 필수적이며, 이로 인해 훈련 속도가 느려질 수 있습니다.
- 인공신경망을 기반으로 RNN, CNN, LSTM 등 다양한 확장 모델의 기반을 제공해주었다.
- 최적의 은닉층의 수와 은닉 노드의 수를 결정하는 데 어려움이 있다.
- 오답 노트
- 순전파 알고리즘만 사용: 신경망 훈련은 순전파뿐 아니라 역전파도 필수적입니다. 역전파 없이는 모델이 학습할 수 없습니다.
05. 다음 중 텍스트 마이닝에 대한 설명으로 잘못된 것은?
- 분석 대상이 텍스트라는 비정형 데이터이므로 비정형 데이터 마이닝으로 분류된다.
- 한국어의 경우 조사를 제거하거나 시제를 현재형으로 돌리는 등 단어의 어원을 찾는 작업을 토크나이저라 한다.
- 텍스트 마이닝의 대표적인 활용방안으로는 문서의 요약, 분류, 군집, 추출 등이 있다.
- 감성분석은 일종의 텍스트 마이닝으로 '오피니언 마이닝'으로도 불린다.
해설
- 개념 개요
- 텍스트 마이닝은 비정형 데이터인 텍스트에서 유용한 정보를 추출하는 기법입니다. 주로 자연어 처리 기법을 사용하여 텍스트를 분석하고, 문서 요약, 분류, 군집, 감성 분석 등의 다양한 작업에 활용됩니다.
- 초등학생도 이해하기 쉬운 설명
- 텍스트 마이닝은 컴퓨터가 책이나 글을 읽고 중요한 정보를 찾아내는 방법이에요. 예를 들어, 글에서 어떤 단어가 많이 나오는지 알아보거나, 글의 내용을 요약하는 데 사용할 수 있어요.
- 각 문제 항목 해설
- 분석 대상이 텍스트라는 비정형 데이터이므로 비정형 데이터 마이닝으로 분류된다.
- 맞는 설명입니다. 텍스트 마이닝은 비정형 데이터인 텍스트를 분석합니다.
- 한국어의 경우 조사를 제거하거나 시제를 현재형으로 돌리는 등 단어의 어원을 찾는 작업을 토크나이저라 한다.
- 잘못된 설명입니다. 이러한 작업은 일반적으로 형태소 분석이나 어간 추출이라고 하며, 토크나이저는 텍스트를 작은 단위로 나누는 작업입니다.
- 텍스트 마이닝의 대표적인 활용방안으로는 문서의 요약, 분류, 군집, 추출 등이 있다.
- 맞는 설명입니다. 텍스트 마이닝은 다양한 분석 작업에 활용됩니다
- 감성분석은 일종의 텍스트 마이닝으로 '오피니언 마이닝'으로도 불린다.
- 맞는 설명입니다. 감성 분석은 텍스트에서 감정을 추출하는 작업으로, 오피니언 마이닝이라고도 합니다
- 분석 대상이 텍스트라는 비정형 데이터이므로 비정형 데이터 마이닝으로 분류된다.
- 오답 노트
- 토크나이저: 토크나이저는 텍스트를 단어 또는 문장 등의 작은 단위로 나누는 작업입니다. 형태소 분석이나 어간 추출과 혼동하지 않도록 주의해야 합니다.
06. 다음 중 시계열 모형에 대한 설명으로 잘못된 것은?
- 자기회귀모형은 특정 시점의 자료는 그 이전 n개의 데이터에 의해 설명될 수 있다는 전제하에 모형을 구축하는 것이다.
- 이동평균모형은 이전 시점들의 백색 잡음의 선형결합으로 표현될 수 있는 모형을 의미한다.
- 자기상관함수 또는 부분자기상관함수를 활용해 시차 값 n을 판별할 수 있다.
- 자기회귀누적이동평균모형 ARIMA(p, d, q)에서 p는 시계열 자료를 정상화하기 위해 필요한 차분 횟수를 의미한다.
해설
- ARIMA(p, d, q) 모델은 시계열 데이터를 분석하고 예측하는 데 사용되는 통계적 모델입니다. 이 모델은 다음과 같은 세 가지 주요 구성 요소로 이루어져 있습니다:
- 자기회귀(AR, Autoregressive) 부분: 과거의 값들이 현재 값에 미치는 영향을 모델링합니다. 여기서 p 는 과거 관측값의 수를 나타냅니다.
- 차분(I, Integrated) 부분: 시계열 데이터를 정상화하기 위해 차분을 사용합니다. d 는 차분의 횟수를 나타내며, 비정상성을 제거하는 데 사용됩니다
- 이동 평균(MA, Moving Average) 부분: 과거의 예측 오차가 현재 값에 미치는 영향을 모델링합니다. q 는 과거 오차항의 수를 나타냅니다
07. 다음 중 회귀분석의 결과를 해석하는 방법을 잘못 설명한 것은?
- p-value 값을 확인하고 모형의 유의성을 판단한다.
- 각 독립변수의 회귀계수를 확인하고 유의한 변수를 판단한다.
- 다중회귀분석의 경우 다중공선성의 여부를 판단해야 한다.
- 결정계수를 확인하고 모형의 설명력을 판단한다.
해설
- 개념 개요
- 회귀분석은 종속변수와 하나 이상의 독립변수 간의 관계를 모델링하는 통계 기법입니다. 이를 통해 변수 간의 관계를 이해하고 예측할 수 있습니다.
- 초등학생도 이해하기 쉬운 설명
- 회귀분석은 마치 여러 가지 요인들이 결과에 어떻게 영향을 미치는지를 알아보는 방법이에요. 예를 들어, 공부 시간과 성적이 어떻게 관련이 있는지를 알아보는 것과 비슷해요.
- 각 문제 항목 해설
- p-value 값을 확인하고 모형의 유의성을 판단한다.
- P-value는 각 독립변수가 결과에 미치는 영향이 의미 있는지를 확인하는 데 사용됩니다. 작을수록 중요합니다.
- 각 독립변수의 회귀계수를 확인하고 유의한 변수를 판단한다.
- 잘못된 설명입니다. 회귀계수는 변수의 영향력을 나타내지만, 유의성 여부는 반드시 p-value를 통해 판단해야 합니다.
- 다중회귀분석의 경우 다중공선성의 여부를 판단해야 한다.
- 다중공선성은 독립 변수들 간에 강한 상관관계가 있을 때 발생하며, 이를 해결해야 정확한 분석이 가능합니다.
- 결정계수를 확인하고 모형의 설명력을 판단한다.
- 결정계수(R-squared)는 모델이 데이터 변동을 얼마나 잘 설명하는지를 나타냅니다.
- p-value 값을 확인하고 모형의 유의성을 판단한다.
- 오답 노트
- 회귀계수와 유의성: 회귀계수만으로는 유의성을 판단할 수 없습니다. 반드시 p-value를 함께 고려하여 판단해야 합니다.
08. 서열척도인 두 변수 값의 관계를 나타낸 값으로 한 변수를 단조 증가 함수로 바꿔 다른 변수를 표현할 수 있는 상관계수는 무엇인가?
- 자카드 계수
- 피어슨 상관계수
- 스피어만 상관계수
- 단순 일치 계수
해설
- 개념 개요
- 스피어만 상관계수는 두 변수 간의 순위 상관관계를 측정하는 비모수적 통계 지표입니다. 이는 데이터의 순위를 기반으로 하여 두 변수 간의 단조 관계를 평가합니다. 스피어만 상관계수는 피어슨 상관계수와 달리 데이터의 분포에 대한 가정이 필요 없으며, 비선형적인 관계도 평가할 수 있습니다.
- 초등학생도 이해하기 쉬운 설명
- 스피어만 상관계수는 친구들 사이에서 누가 더 키가 큰지, 누가 더 달리기를 잘하는지를 순서대로 비교하는 방법이에요. 키와 달리기 실력 사이에 어떤 관계가 있는지 알아보는 거죠. 이렇게 순서를 비교하면 숫자가 꼭 정확하지 않아도 관계를 알 수 있어요.
- 각 문제 항목 해설
- 자카드 계수
- 두 집합 간의 유사성을 측정하는 지표로, 주로 집합의 교집합과 합집합을 비교하여 유사성을 평가합니다. 서열척도와는 관련이 없습니다.
- 피어슨 상관계수
- 두 변수 간의 선형 상관관계를 측정하는 지표로, 연속형 데이터에 적합합니다. 서열척도 데이터에는 적절하지 않습니다.
- 스피어만 상관계수
- 서열척도 데이터 간의 순위 상관관계를 측정하는 비모수적 지표입니다. 한 변수를 단조 증가 함수로 변환하여 다른 변수를 표현할 수 있습니다.
- 단순 일치 계수
- 두 변수 간의 일치 정도를 측정하는 지표로, 주로 범주형 데이터에 사용됩니다. 서열척도와는 관련이 없습니다.
- 자카드 계수
- 오답 노트
- 자카드 계수와 단순 일치 계수는 서열척도 데이터와 직접적인 관련이 없습니다.
- 피어슨 상관계수는 선형 관계를 가정하므로, 서열척도 데이터에는 적합하지 않습니다.
- 스피어만 상관계수가 서열척도 데이터 분석에 적합하며, 단조 증가 함수로 변환하여 관계를 나타낼 수 있습니다.
09. 다음 중 의사결정나무에 대한 설명으로 잘못된 것은?
- 이상값에 민감하지 않으며 데이터의 선형성, 정규성 등의 가정이 불필요해 가장 보편적인 분류 방법 중 하나이다.
- 부모마디로부터 자식마디로 내려갈수록 변수의 중요도가 낮아져 변수 사이의 중료도를 판단하기에 용이하다.
- 가지치기 및 정지규칙과 같은 부가적인 요소를 설정해 과적합을 미연에 방지한다.
- 종속변수가 연속형인 경우에도 CHAID 또는 CART 알고리즘을 활용하여 의사결정나무를 구축할 수 있다.
해설
- 개념 개요
- 의사결정나무(Decision Tree)는 데이터를 분류하거나 예측하는 데 사용되는 기계 학습 알고리즘입니다. 트리 구조를 사용하여 데이터의 특성을 기반으로 분기하고, 최종적으로 결과를 도출합니다. 의사결정나무는 직관적이고 해석하기 쉬워 널리 사용됩니다.
- 초등학생도 이해하기 쉬운 설명
- 의사결정나무는 마치 스무고개 게임처럼 질문을 통해 답을 찾아가는 방법이에요. 예를 들어, "이 동물이 네 발이 있나요?" 같은 질문을 던지면서 점점 더 구체적인 답을 찾아가는 거죠.
- 각 문제 항목 해설
- 이상값에 민감하지 않으며 데이터의 선형성, 정규성 등의 가정이 불필요해 가장 보편적인 분류 방법 중 하나이다.
- 맞는 설명입니다. 의사결정나무는 비모수적 방법으로, 이상값이나 데이터의 분포에 민감하지 않습니다.
- 부모마디로부터 자식마디로 내려갈수록 변수의 중요도가 낮아져 변수 사이의 중요도를 판단하기에 용이하다.
- 잘못된 설명입니다. 의사결정나무에서 변수의 중요도는 트리 전체에서 정보 이득이나 지니 계수 감소 등을 통해 평가되며, 부모-자식 관계로 단순히 중요도를 판단하지 않습니다
- 가지치기 및 정지규칙과 같은 부가적인 요소를 설정해 과적합을 미연에 방지한다.
- 맞는 설명입니다. 가지치기(pruning)와 정지규칙은 트리의 복잡도를 줄여 과적합을 방지하는 데 사용됩니다
- 종속변수가 연속형인 경우에도 CHAID 또는 CART 알고리즘을 활용하여 의사결정나무를 구축할 수 있다.
- 맞는 설명입니다. CART 알고리즘은 회귀 및 분류 문제 모두에 사용되며, 연속형 종속변수를 처리할 수 있습니다
- 이상값에 민감하지 않으며 데이터의 선형성, 정규성 등의 가정이 불필요해 가장 보편적인 분류 방법 중 하나이다.
- 오답 노트
- 부모-자식 마디의 변수 중요도: 의사결정나무에서 변수 중요도는 각 노드에서의 분기 기준으로 결정되며, 부모-자식 관계로 단순히 평가되지 않습니다. 이는 트리 전체에서 정보 이득이나 지니 계수 감소 등의 지표를 통해 평가됩니다.
10. 다음 중 분산분석을 수행하기 위한 가정 사항으로 적절하지 않은 것은?
- 정규성
- 등분산성
- 독립성
- 선형성
해설
- 개념 개요
- 분산분석은 여러 그룹 간의 평균 차이를 검정하기 위한 통계적 방법입니다. 이를 수행하기 위해 몇 가지 가정이 필요합니다.
- 초등학생도 이해하기 쉬운 설명
- 분산분석은 여러 그룹이 서로 다른지 알아보는 방법이에요. 이 방법을 쓰려면 몇 가지 규칙을 따라야 해요. 예를 들어, 모든 그룹의 데이터가 비슷한 모양이어야 하고, 서로 영향을 주지 않아야 해요.
- 각 문제 항목 해설
- 정규성
- 각 그룹의 데이터가 정규분포를 따라야 한다는 가정입니다.
- 등분산성
- 모든 그룹의 분산이 같아야 한다는 가정입니다.
- 독립성
- 각 데이터 포인트가 서로 독립적이어야 한다는 가정입니다.
- 선형성
- 잘못된 설명입니다. 분산분석에서는 선형성을 가정하지 않습니다. 이는 회귀분석과 관련된 가정입니다.
- 정규성
11. 다음 중 보기와 같은 상황이 주어졌을 때 수행해야 할 가설검정의 종류로 올바른 것은?
한 백화점에서 A 상품, B 상품, C 상품 모두를 구매한 고객들을 대상으로 어떤 상품이 더 높은 만족도를 보였는지 각 제품에 대하여 선호도 점수를 조사했다. 단순히 결과를 비교하기에 앞서 각 상품에 VVIP 고객, VIP 고객, 일반 고객을 나누어 점수를 비교해야 할 것으로 판단된다.
- 이표본 T 검정
- 카이제곱 검정
- 일원분산분석
- 이원분산분석
해설
- 개념 개요
- 이원분산분석은 두 개 이상의 범주형 독립변수가 종속변수에 미치는 영향을 분석하는 통계적 방법입니다. 이는 각 독립변수의 주효과뿐만 아니라, 두 독립변수 간의 상호작용 효과도 평가할 수 있습니다.
- 초등학생도 이해하기 쉬운 설명
- 이원분산분석은 마치 여러 가지 맛의 아이스크림을 서로 다른 크기의 컵에 담아 맛을 비교하는 것과 같아요. 여기서 맛과 컵 크기가 각각 독립변수이고, 맛의 점수가 종속변수예요. 이 분석을 통해 어떤 맛이 더 인기 있는지, 그리고 컵 크기에 따라 그 인기가 어떻게 달라지는지를 알 수 있어요.
- 각 문제 항목 해설
- 이표본 T 검정
- 두 그룹 간의 평균 차이를 비교하는 데 사용됩니다. 세 개 이상의 그룹을 비교할 때는 적절하지 않습니다.
- 카이제곱 검정
- 범주형 데이터 간의 독립성이나 적합성을 검정하는 데 사용됩니다. 평균 차이를 비교하는 분산분석과는 다릅니다.
- 일원분산분석
- 하나의 독립변수에 대한 여러 그룹 간 평균 차이를 분석합니다. 두 개 이상의 독립변수를 고려해야 하는 경우에는 적절하지 않습니다.
- 이원분산분석
- 두 개 이상의 범주형 독립변수가 종속변수에 미치는 영향을 분석합니다. 주어진 상황에서 VVIP, VIP, 일반 고객이라는 두 가지 범주(고객 유형 및 상품)를 고려하므로 이원분산분석이 적합합니다.
- 이표본 T 검정
- 오답 노트
- 이표본 T 검정과 카이제곱 검정은 각각 두 그룹 간의 평균 차이나 범주형 데이터의 관계를 분석하는 데 사용되며, 다중 그룹 평균 비교에는 적합하지 않습니다.
- 일원분산분석은 하나의 독립변수를 고려하므로, 두 개 이상의 범주형 변수를 고려해야 하는 상황에는 적절하지 않습니다.
'[자격증] > ADsP 문제 풀이' 카테고리의 다른 글
[39회 기출 변형 문제] (0) | 2024.10.27 |
---|---|
[38회 기출 변형 문제] (0) | 2024.10.27 |
[3회 모의고사] (2) | 2024.10.24 |
[2회 모의고사] (0) | 2024.10.23 |
[1회 모의고사] (1) | 2024.10.22 |