[2과목]
01. 다음 중 분석 방법론을 구선하는 요소 중 산출물에 대한 예시와 그 설명으로 부적절한 것은 무엇인가?
- WBS: 업무 분업 구조로 프로젝트를 작은 단위의 업무로 나누어 수행자 및 수행 기간을 명시한 문서다.
- ERD: 프로젝트를 효과적으로 관리하기 위해 여러 프로그램끼리의 연결 관계를 그린 관계 다이어그램이다.
- 프로그램 목록: 프로젝트를 수행하면서 산출되는 작은 단위부터 큰 단위까지 모든 프로그램을 나열한 목록이다.
- 데이터 명세서: 데이터를 관리하기 위한 문서로 변수명, 속성, 목적 및 활용 방안 등을 포함할 수 있다.
해설
- WBS (Work Breakdown Structure): 업무 분업 구조로, 프로젝트를 작은 단위의 업무로 나누어 수행자 및 수행 기간을 명시한 문서입니다. 이는 프로젝트 관리에서 일반적으로 사용되는 방법론으로, 설명이 적절합니다.
- ERD (Entity Relationship Diagram): 데이터베이스 설계에서 사용되는 도구로, 데이터의 엔티티와 그들 간의 관계를 시각적으로 표현한 다이어그램입니다. 여러 프로그램끼리의 연결 관계를 그린 다이어그램이라는 설명은 부적절합니다. ERD는 데이터베이스 내의 데이터 구조와 관계를 나타내는 것이지, 프로그램 간의 관계를 나타내지 않습니다
- 프로그램 목록: 프로젝트 수행 중 산출되는 프로그램들을 나열한 목록으로, 설명이 적절합니다. 이 목록은 프로젝트 관리 및 소프트웨어 개발에서 흔히 사용됩니다
- 데이터 명세서: 데이터를 관리하기 위한 문서로, 변수명, 속성, 목적 및 활용 방안 등을 포함할 수 있는 문서입니다. 이는 데이터베이스 설계 및 시스템 분석에서 중요한 문서로, 설명이 적절합니다
02. 다음 중 하향식 접근법에 대한 설명으로 잘못된 것은?
- 문제 탐색, 문제 정의, 해결 방안 탐색, 타당성 검토 순으로 수행된다.
- 기존의 유스케이스를 최대한 활용하여 과거의 실패를 되풀이하지 않도록 한다.
- 거시적 관점으로는 대체재, 경쟁자, 신규 진입자 등의 관점에서 문제를 탐색할 수 있다.
- 해결 방안 탐색에서는 기존 시스템 활용 가능 여부와 기업의 역량 여부에 따라 4가지의 해결책을 제시할 수 있다.
해설
- 경쟁자 확대 관점: 대체재, 경쟁자, 신규 진입자
[3과목]
01. 다음 중 랜덤 포레스트에 대한 설명으로 부적절한 것은 무엇인가?
- 앙상블 기법 중 하나로 여러 개의 의사결정나무로 구성된다.
- 의사결정나무의 단점인 분산이 크다는 것을 고려하여 배깅보다 더 많은 무작위성을 주어 분산을 감소시킨다.
- 배깅보다 더 많은 무작위성에 의해 각 트리가 서로 상관성을 가질 수 있어 배깅보다 우수하거나 비슷하다.
- 여러 개의 트리들의 선형 결합으로 최종 분류기를 만드는 방법이다.
해설
- 랜덤 포레스트의 개념 개요
- 랜덤 포레스트는 여러 개의 의사결정나무를 결합하여 예측 성능을 향상시키는 앙상블 기법입니다. 각 트리는 데이터의 무작위 샘플을 사용하여 독립적으로 학습하고, 최종 예측은 모든 트리의 예측을 결합하여 결정됩니다. 이 방법은 특히 데이터의 분산을 줄이고 과적합을 방지하는 데 효과적입니다.
- 초등학생도 이해할 수 있는 랜덤 포레스트 설명
- 랜덤 포레스트는 여러 명의 친구들이 모여 무언가를 결정하는 방법이에요. 각 친구가 자신의 의견(결정)을 말하고, 그 의견들을 모아서 가장 많은 사람들이 동의하는 것을 선택하는 거예요. 이렇게 하면 한 명이 틀린 의견을 내더라도, 전체적으로는 더 좋은 결정을 내릴 수 있어요.
- 문제 항목에 대한 상세한 해설
- 앙상블 기법 중 하나로 여러 개의 의사결정나무로 구성된다: 랜덤 포레스트는 여러 개의 의사결정나무를 사용하는 앙상블 기법이므로 이 설명은 적절합니다.
- 의사결정나무의 단점인 분산이 크다는 것을 고려하여 배깅보다 더 많은 무작위성을 주어 분산을 감소시킨다: 랜덤 포레스트는 배깅에 무작위성을 추가하여 각 트리의 독립성을 높이고, 결과적으로 분산을 줄이는 데 기여합니다. 이 설명은 적절합니다.
- 배깅보다 더 많은 무작위성에 의해 각 트리가 서로 상관성을 가질 수 있어 배깅보다 우수하거나 비슷하다: 랜덤 포레스트는 무작위성을 통해 트리 간 상관성을 줄여 성능을 향상시키려는 것이 목표입니다. "각 트리가 서로 상관성을 가질 수 있다"는 부분은 부적절합니다. 무작위성은 상관성을 줄이기 위한 것입니다.
- 여러 개의 트리들의 선형 결합으로 최종 분류기를 만드는 방법이다: 랜덤 포레스트는 여러 트리의 예측을 평균화하거나 다수결 투표를 통해 최종 예측을 만듭니다. "선형 결합"이라는 표현은 일반적으로 회귀 분석에서 사용되며, 랜덤 포레스트와는 다소 맞지 않습니다.
- 오답 노트
- 랜덤 포레스트는 다양한 의사결정나무를 사용하여 예측 성능을 향상시키고 과적합을 방지하는 앙상블 기법입니다.
- 무작위성: 데이터를 무작위로 샘플링하고, 각 노드에서 사용할 특성도 무작위로 선택함으로써 트리 간 상관성을 줄입니다.
02. 다음 중 앙상블 기법 중 하나로 이전 분류기에 의해 잘못 분류된 데이터에 더 큰 가중치를 주어 붓스트랩을 재구성하는 기법은 무엇인가?
- 배깅
- 부스팅
- 랜덤 포레스트
- 의사결정나무
해설
- 개념 개요
- 부스팅은 앙상블 기법 중 하나로, 이전 분류기에 의해 잘못 분류된 데이터에 더 큰 가중치를 주어 모델을 개선하는 방법입니다. 이 기법은 여러 약한 학습자(모델)를 순차적으로 학습시키며, 각 모델이 이전 모델의 오류를 수정하도록 설계되어 있습니다
- 초등학생도 이해할 수 있는 설명
- 부스팅은 친구들이 퀴즈를 풀 때, 틀린 문제에 집중해서 공부하는 것과 비슷해요. 첫 번째 친구가 틀린 문제를 두 번째 친구가 다시 풀어보고, 또 틀리면 세 번째 친구가 더 열심히 공부해서 맞추는 방식이에요. 이렇게 하면 모두가 더 잘할 수 있게 되죠.
- 문제 항목에 대한 상세한 해설
- 배깅: 여러 모델을 독립적으로 학습시키고 결과를 평균화하거나 투표하여 최종 결과를 만드는 방법입니다. 각 모델은 데이터의 무작위 샘플을 사용하여 학습합니다
- 부스팅: 이전 모델이 잘못 예측한 데이터에 더 큰 가중치를 주어 다음 모델이 이를 집중적으로 학습하게 하는 방법입니다. 이 과정은 여러 번 반복되어 최종적으로 강력한 모델을 만듭니다
- 랜덤 포레스트: 배깅의 한 종류로, 여러 의사결정나무를 사용하여 예측을 평균화하거나 다수결 투표를 통해 결합합니다. 각 트리는 무작위로 선택된 데이터와 특성을 사용하여 학습합니다
- 의사결정나무: 단일 트리 구조로 데이터를 분류하거나 회귀 분석을 수행하는 기법입니다. 앙상블 기법이 아닙니다.
- 오답 노트
- 부스팅은 이전 분류기의 오류를 수정하기 위해 잘못 분류된 데이터에 더 큰 가중치를 부여하는 앙상블 기법입니다.
- 배깅과 랜덤 포레스트는 독립적으로 학습된 모델들의 결과를 결합하는 방식으로, 부스팅과는 다른 접근법입니다.
- 의사결정나무는 단일 모델로, 앙상블 기법이 아닙니다.
03. 다음 중 분해 시계열의 요소로 부적절한 것은 무엇인가?
- 추세요인
- 계절요인
- 기온요인
- 불규칙요인
해설
- 개념 개요
- 분해 시계열은 시간에 따른 데이터를 분석하기 위해 여러 요소로 나누는 방법입니다. 주요 요소는 다음과 같습니다
- 추세 요인: 장기적으로 증가하거나 감소하는 경향을 나타냅니다.
- 계절 요인: 특정 주기(예: 계절)에 따라 반복되는 패턴을 나타냅니다.
- 불규칙 요인: 예측할 수 없는 우연한 변동을 포함합니다.
- 초등학생도 이해할 수 있는 설명
- 시계열 분석은 날씨나 주식 가격처럼 시간이 지남에 따라 변하는 데이터를 이해하는 방법이에요. 이 데이터를 세 가지로 나눠서 생각할 수 있어요
- 추세: 시간이 지나면서 점점 올라가거나 내려가는 것
- 계절: 여름이나 겨울처럼 매년 비슷하게 반복되는 것
- 불규칙: 갑자기 변하는 예상치 못한 일들
- 문제 항목에 대한 상세한 해설
- 추세요인: 장기적으로 증가하거나 감소하는 경향을 나타내는 요소로, 시계열 분석의 기본 요소입니다.
- 계절요인: 특정 주기에 따라 반복되는 패턴으로, 시계열 분석에서 중요한 요소입니다.
- 기온요인: 기온은 시계열 데이터의 직접적인 분석 요소가 아닙니다. 기온은 외부 변수로 작용할 수 있지만, 시계열 분해의 기본 구성 요소는 아닙니다.
- 불규칙요인: 예측할 수 없는 우연한 변동을 나타내며, 시계열 분석의 기본 요소입니다.
- 오답 노트
- 기온요인은 시계열 분해의 기본 요소가 아닙니다. 이는 외부 환경 요인으로 간주될 수 있지만, 직접적인 분해 요소로 사용되지는 않습니다.
- 추세, 계절, 불규칙 요인은 시계열 분해의 필수적인 구성 요소입니다.
04. 다음 중 정형 데이터 마이닝에 대한 설명으로 부적절한 것은 무엇인가?
- 데이터 마이닝은 크게 지도학습과 비지도학습으로 분류할 수 있다.
- 데이터 마이닝은 대용량 데이터 속에서 규칙 및 패턴을 발견하는 것이 목적이다.
- 데이터 분할의 목적은 과적합을 방지하는 것이다.
- 데이터가 적을 때도 홀드아웃은 데이터를 대표할 수 있는 대표성을 가진다.
해설
- 개념 개요
- 홀드아웃은 데이터를 훈련 세트와 테스트 세트로 나누어 모델을 평가하는 기법입니다. 일반적으로 데이터의 70-80%를 훈련에 사용하고 나머지를 테스트에 사용합니다. 이 방법은 모델이 새로운 데이터에 대해 얼마나 잘 일반화되는지 평가할 수 있게 해줍니다.
- 초등학생도 이해할 수 있는 설명
- 홀드아웃은 장난감 상자를 두 부분으로 나누는 것과 같아요. 한쪽은 장난감을 가지고 놀면서 배우는 데 사용하고, 다른 쪽은 나중에 얼마나 잘 놀 수 있는지 시험해보는 데 사용하는 거예요.
- 추가 설명
- 훈련 데이터와 테스트 데이터로 나눔: 홀드아웃은 데이터를 두 부분으로 나누어 각각 모델 훈련과 평가에 사용합니다
- 모델의 일반화 능력 평가: 이 방법을 통해 모델이 처음 보는 데이터에 대해 얼마나 잘 예측하는지 확인할 수 있습니다
- 데이터 자원의 낭비 문제: 검증용 데이터가 훈련에 사용되지 않기 때문에 데이터가 충분하지 않을 경우 효율적이지 않을 수 있습니다
- 대표성 문제: 데이터가 적을 때 홀드아웃은 대표성을 가지기 어려울 수 있으며, 교차 검증이 더 적절한 방법입니다
- 오답 노트
- 홀드아웃은 기본적으로 데이터를 나누어 사용하는 방법이지만, 데이터가 적을 때는 대표성이 떨어질 수 있습니다.
- 교차 검증은 데이터를 여러 번 나누어 사용하는 방법으로, 작은 데이터셋에서도 더 나은 대표성을 제공합니다.
05. K-평균 군집을 수행할 때 초깃값 SEED의 개수 K 값을 결정하는 것은 쉽지 않다. 다음 중 K 값을 결정하기 위한 그래프로 알맞은 것은 무엇인가?
- 제곱합 그래프
- Confusion Matrix
- 향상도 곡선
- ROC 커브
해설
- 개념 개요
- K-평균 군집에서 K 값을 결정하는 것은 중요한 문제입니다. 이를 위해 엘보우 방법이라는 그래프를 사용합니다. 이 방법은 각 K 값에 대한 클러스터 내 제곱합(WCSS)을 그래프로 나타내어, 그래프가 급격히 꺾이는 지점(엘보우)을 최적의 K 값으로 선택합니다.
- 초등학생도 이해할 수 있는 설명
- 엘보우 방법은 산을 오를 때 어느 지점에서 가장 많이 꺾이는지를 찾는 것과 비슷해요. 그 지점이 우리가 원하는 곳이에요. 숫자들이 모여 있는 정도를 보면서 가장 좋은 그룹 수를 찾는 거예요.
06. 다음 중 아래 보기는 어떤 알고리즘에 대한 설명인지 고르시오.
의사결정나무 구축을 위한 알고리즘으로 불순도의 측도로는 엔트로피 지수를 활용한다. 각 마디에서 가지 분리가 가능하다는 큰 특징이 있다.
- CART
- C4.5
- CHAI
- APPIORI
해설
- 개념 개요
- 의사결정나무 알고리즘 중 C4.5는 엔트로피를 사용하여 불순도를 측정하고, 각 노드에서 가지 분리를 수행하는 알고리즘입니다. 이는 ID3 알고리즘의 확장판으로, 연속형 변수도 처리할 수 있습니다.
- 초등학생도 이해할 수 있는 설명
- C4.5 알고리즘은 나무를 만드는 방법이에요. 나무의 각 가지를 잘라서 가장 좋은 결정을 내리기 위해 '혼란도'라는 것을 측정해요. 이 방법을 통해 나무가 더 똑똑하게 자랄 수 있어요.
- 문제 항목에 대한 상세한 해설
- CART: 주로 지니 지수를 사용하여 분할하며, 엔트로피를 사용하지 않습니다.
- C4.5: 엔트로피 지수를 사용하여 분순도를 측정하고, 각 마디에서 가지 분리를 하는 알고리즘입니다. 이 설명에 맞습니다
- CHAI: 일반적으로 알려진 의사결정나무 알고리즘이 아닙니다.
- APPIORI: 연관 규칙 학습에 사용되는 알고리즘으로, 의사결정나무와는 관련이 없습니다.
- 오답 노트
- C4.5는 엔트로피를 사용하여 의사결정나무를 구축하는 알고리즘입니다.
- CART는 지니 지수를 사용하며, C4.5와는 다른 방식입니다.
07. 계층적 군집분석을 수행하기 위한 방법 중 아래 보기에서 설명하는 것은 무엇인가?
자료들이 군집화될 때 생성된 군집과 군집 밖의 자료의 거리를 계산할 때 군집에 속한 자료의 편차제곱합이 최소가 되는 위치와의 거리를 사용하는 방법이다.
- 평균연결법
- 최단연결법
- 와드연결법
- 중심연결법
해설
- 개념 개요
- 계층적 군집분석에서 와드 연결법은 군집 내 편차제곱합을 최소화하는 방식으로 군집을 형성하는 방법입니다. 이는 군집화될 때 생성된 군집과 군집 밖의 자료의 거리를 계산할 때, 군집에 속한 자료의 편차제곱합이 최소가 되는 위치와의 거리를 사용하는 방법입니다.
- 초등학생도 이해할 수 있는 설명
- 와드 연결법은 친구들을 그룹으로 나누는 방법이에요. 각 그룹 안에서 친구들이 얼마나 가까이 모여 있는지를 보고, 가장 잘 모여 있는 그룹을 만드는 거예요. 이렇게 하면 친구들이 서로 잘 어울릴 수 있게 돼요.
- 문제 항목에 대한 상세한 해설
- 평균연결법: 각 군집의 평균을 사용하여 군집 간 거리를 계산하는 방법입니다.
- 최단연결법: 두 군집 사이의 가장 가까운 거리(최소 거리)를 기준으로 군집을 형성하는 방법입니다.
- 와드연결법: 군집 내 편차제곱합을 최소화하여 군집을 형성하는 방법으로, 주어진 설명에 해당합니다.
- 중심연결법: 각 군집의 중심 간의 거리를 사용하여 군집을 형성하는 방법입니다.
08. 다음 중 연관분석에 대한 특징으로 부적절한 것은 무엇인가?
- 품목 수의 증가는 계산량의 기하급수적인 증가를 초래하므로 최소 신뢰도를 선정하여 최소 신뢰도 이상의 품목에 대해서만 분석을 수행한다.
- 품목 세분화의 어려움이 있다.
- 연관분석에 시간의 개념을 추가하여 순차패턴분석을 수행할 수 있다.
- 연관분석의 결과를 확인하기 위해서는 inspect를 사용한다.
해설
- 개념 개요
- 연관분석은 데이터 항목 간의 관계를 찾는 데이터 마이닝 기법입니다. 주로 대규모 데이터셋에서 발생하는 규칙과 패턴을 발견하는 데 사용되며, 대표적인 지표로는 **지지도(Support)**와 **신뢰도(Confidence)**가 있습니다. 연관분석은 품목 간의 관계를 분석할 때 사용되며, 이를 통해 유의미한 규칙을 도출합니다.
- 초등학생도 이해할 수 있는 설명
- 연관분석은 마트에서 사람들이 어떤 물건들을 함께 사는지를 알아보는 방법이에요. 예를 들어, 사람들이 우유를 살 때 빵도 같이 사는 경우가 많다면, 우유와 빵 사이에 특별한 관계가 있다고 말할 수 있어요. 이렇게 물건들이 함께 자주 팔리는지를 보는 거예요.
- 문제 항목에 대한 상세한 해설
- 품목 수의 증가는 계산량의 기하급수적인 증가를 초래하므로 최소 신뢰도를 선정하여 최소 신뢰도 이상의 품목에 대해서만 분석을 수행한다: 연관분석에서는 계산량을 줄이기 위해 최소 지지도를 설정하여 중요한 규칙만을 추출합니다. 따라서 이 설명은 부적절합니다.
09. 부동산 매물 100채에 대하여 다각도로 조사하여 데이터를 수집하였다. 그리고 mclust 패키지의 혼합 분포 군집을 활용하여 아래와 같이 분산 형태의 BIC 그래프를 그렸다. 다음 중 부동산 매물 100개를 군집화하기에 좋은 최적의 개수는 몇 개인가?
- 2개
- 3개
- 4개
- 5개
해설
- 개념 개요
- Mclust는 모형 기반 군집화(model-based clustering)를 수행하는 R 패키지로, 데이터의 군집을 찾기 위해 다양한 통계 모델을 사용합니다. 이 과정에서 **BIC (Bayesian Information Criterion)**를 사용하여 최적의 군집 개수를 결정합니다. BIC는 모델의 적합도를 평가하기 위한 기준으로, 값이 클수록 모델이 데이터를 잘 설명한다고 판단합니다.
- 초등학생도 이해할 수 있는 설명
- Mclust는 여러 가지 방법으로 데이터를 그룹으로 나누는 프로그램이에요. BIC라는 특별한 숫자를 사용해서 어떤 그룹 나누기가 가장 좋은지를 알아내요. 이 숫자가 클수록 데이터를 잘 나눈 거예요.
- 문제 항목에 대한 상세한 해설
- Mclust와 BIC: Mclust는 다양한 통계 모델을 사용하여 데이터를 군집화하고, BIC를 통해 최적의 군집 개수를 결정합니다. BIC 값이 최대가 되는 지점이 최적의 군집 개수로 간주됩니다
- 최적의 군집 개수 찾기: Mclust를 사용할 때 G = NULL로 설정하면, 자동으로 여러 개의 군집 개수를 평가하여 BIC 값이 가장 높은 곳을 선택합니다. BIC 그래프를 통해 각 군집 개수에 대한 BIC 값을 시각적으로 확인할 수 있으며, 그래프에서 가장 높은 지점이 최적의 군집 개수입니다.
- 오답 노트
- BIC는 모델의 복잡성과 적합도를 동시에 고려하여 최적의 군집 개수를 결정하는 데 사용됩니다.
- Mclust는 다양한 모델을 평가하고, BIC를 통해 최적의 군집 구조를 선택하는 데 유용합니다.
10. 다음 중 분산분석의 사후검정방법이 아닌 것은 무엇인가?
- Tukey 검정
- Bonferroni 검정
- Fisher' LSD
- Shapiro 검정
해설
- 개념 개요
- 분산분석(ANOVA) 후에 사후검정(Post-hoc test)은 그룹 간의 평균 차이를 더 자세히 분석하기 위해 사용됩니다. 사후검정은 여러 그룹 간의 차이를 확인하여 통계적 유의성을 평가합니다. 주요 사후검정 방법으로는 Tukey, Bonferroni, Fisher's LSD 등이 있습니다.
- 초등학생도 이해할 수 있는 설명
- 분산분석은 여러 그룹이 있을 때 이 그룹들 간에 차이가 있는지를 알아보는 방법이에요. 만약 차이가 있다고 나오면, 사후검정을 통해 어떤 그룹들 사이에 차이가 있는지를 더 자세히 알아보는 거예요.
- 문제 항목에 대한 상세한 해설
- Tukey 검정: ANOVA 후에 모든 그룹 간의 평균 차이를 비교하는 사후검정 방법입니다.
- Bonferroni 검정: 다중 비교 시 오류를 줄이기 위해 사용되는 보수적인 사후검정 방법입니다.
- Fisher's LSD: 가장 엄격하지 않은 사후검정 방법으로, ANOVA 후에 그룹 간의 차이를 비교합니다.
- Shapiro 검정: 정규성을 검정하는 방법으로, 사후검정이 아닙니다. 이는 데이터를 분석하기 전에 데이터가 정규분포를 따르는지를 확인하는 데 사용됩니다.
- 오답 노트
- **Shapiro 검정(4번)**은 정규성 검정을 위한 방법으로, ANOVA의 사후검정 방법과는 관련이 없습니다.
- Tukey, Bonferroni, Fisher's LSD는 모두 ANOVA 후에 사용할 수 있는 사후검정 방법입니다.
11. 다음 중 의사결정나무에 대한 설명으로 잘못된 것은?
- 모델이 직관적이고 해석이 용이하나, 독립변수들 사이의 중요도 판단이 쉽지 않다는 어려움이 있다.
- 이상값에 민감하지 않다는 장점이 있으나, 과적합 발생 가능성이 높다는 문제점이 있다.
- CHAD 알고리즘과 C4.5 알고리즘은 이산형, 연속형 모두에 대하여 적용 가능하나, CART 알고리즘은 이산형 변수에만 적용 가능하다.
- 데이터에 대한 선형성, 정규성 등의 가정이 필요하지 않으나, 분류 경계선 근처 자료에 대한 오차가 크다.
해설
- 개념 개요
- 의사결정나무는 데이터를 분류하거나 회귀 분석을 수행하는 데 사용되는 머신러닝 알고리즘입니다. 이 알고리즘은 데이터를 여러 조건에 따라 분할하여 예측을 수행합니다. 의사결정나무는 직관적이고 해석이 용이하지만, 과적합과 같은 문제점도 있습니다.
- 초등학생도 이해할 수 있는 설명
- 의사결정나무는 질문을 통해 결정을 내리는 방법이에요. 예를 들어, "오늘 우산을 가져갈까?"라는 질문에 대해 나무처럼 여러 가지 질문을 하면서 답을 찾는 거예요. 이 방법은 이해하기 쉽지만, 너무 많은 질문을 하면 헷갈릴 수 있어요.
- 문제 항목에 대한 상세한 해설
- 모델이 직관적이고 해석이 용이하나, 독립변수들 사이의 중요도 판단이 쉽지 않다는 어려움이 있다: 의사결정나무는 직관적이고 해석하기 쉬운 모델입니다. 그러나 독립변수들 간의 중요도를 판단하는 데는 한계가 있을 수 있습니다.
- 이상값에 민감하지 않다는 장점이 있으나, 과적합 발생 가능성이 높다는 문제점이 있다: 의사결정나무는 이상값에 비교적 민감하지 않지만, 과적합의 위험이 큽니다
- CHAD 알고리즘과 C4.5 알고리즘은 이산형, 연속형 모두에 대하여 적용 가능하나, CART 알고리즘은 이산형 변수에만 적용 가능하다: 이 설명은 잘못되었습니다. CART 알고리즘은 이산형과 연속형 변수 모두에 적용 가능합니다
- 데이터에 대한 선형성, 정규성 등의 가정이 필요하지 않으나, 분류 경계선 근처 자료에 대한 오차가 크다: 의사결정나무는 데이터의 선형성이나 정규성을 가정하지 않습니다. 그러나 분류 경계선 근처에서는 오차가 클 수 있습니다
- 오답 노트
- **CART 알고리즘(3번)**은 이산형 변수뿐만 아니라 연속형 변수에도 적용 가능합니다. 따라서 3번 설명은 부적절합니다.
12. 다음 그림은 1개의 퍼셉트론을 나타낸 그림이다. 입렵값이 그림과 같은 때 출력값으로 올바른 것은?
해설
- 개념 개요
- 퍼셉트론은 인공 신경망의 기초가 되는 모델로, 입력 데이터를 받아 가중치를 적용하고 활성화 함수를 통해 출력을 생성하는 단층 신경망입니다. 퍼셉트론은 주로 선형 분류 문제를 해결하는 데 사용되며, 다층 퍼셉트론(MLP)으로 확장하여 비선형 문제도 해결할 수 있습니다.
- 활성화 함수는 입력 신호를 출력 신호로 변환하여 신경망의 비선형성을 도입하는 역할을 합니다. 이를 통해 신경망이 복잡한 패턴을 학습하고 다양한 문제를 해결할 수 있게 됩니다.
- 초등학생도 이해할 수 있는 설명
- 퍼셉트론은 여러 가지 정보를 받아서 결정을 내리는 작은 컴퓨터 프로그램이에요. 예를 들어, 날씨 정보를 받아서 오늘 우산을 가져갈지 말지 결정하는 것처럼요. 활성화 함수는 이 프로그램이 결정을 내릴 때 사용하는 특별한 계산 방법이에요. 이 방법을 통해 더 똑똑한 결정을 내릴 수 있게 돼요.
- 퍼셉트론의 구성 요소
- 입력층: 데이터를 입력받는 부분입니다.
- 가중치: 입력 데이터에 곱해지는 값으로, 각 입력의 중요도를 조절합니다.
- 바이어스: 모델의 유연성을 높여주는 상수 값입니다.
- 활성화 함수: 입력 신호를 변환하여 최종 출력을 결정합니다.
- 활성화 함수의 종류
- 시그모이드 함수: 출력 값을 0과 1 사이로 변환합니다.
- 하이퍼볼릭 탄젠트(tanh) 함수: 출력 값을 -1과 1 사이로 변환합니다.
- 렐루(ReLU) 함수: 입력 값이 0보다 작으면 0을 출력하고, 0보다 크면 그대로 출력합니다.
- 소프트맥스 함수: 다중 클래스 분류에서 각 클래스에 속할 확률을 출력합니다.
13. 다음 표를 보고 민감도와 특이도를 계산한 것으로 올바르게 짝지은 것은?
예측집단 | |||
TRUE | FALSE | ||
실제집단 | TRUE | 35 | 25 |
FALSE | 5 | 35 |
- 민감도: 1/8, 특이도: 5/12
- 민감도: 1/8, 특이도: 7/12
- 민감도: 7/12, 특이도: 7/8
- 민감도: 7/12, 특이도: 5/12
해설
14. 다음 중 분산팽창계수(VIF)에 대한 설명으로 올바른 것은 무엇인가?
- 분산분석의 귀무가설이 기각될 때 어느 집단이 이질적인지 파악하기 위해 사용되는 지표
- 회귀분석에서 독립변수 간의 상호선형 관계가 존재하는지 파악하기 위해 사용되는 지표
- 군집분석을 수행한 뒤 데이터들이 얼마나 잘 군집화되었는지 파악하기 위해 사용되는 지표
- 주성분분석을 수행한 뒤 각각의 주성분 사이에 상관성이 존재하는지 파악하기 위해 사용되는 지표
해설
- 개념 개요
- 분산팽창계수(VIF)는 회귀분석에서 독립변수 간의 다중공선성을 진단하는 지표입니다. VIF 값이 높으면 독립변수들 사이에 강한 상관관계가 있다는 것을 의미하며, 일반적으로 VIF 값이 10을 넘으면 다중공선성이 있다고 판단합니다.
- 초등학생도 이해할 수 있는 설명
- VIF는 친구들이 서로 얼마나 비슷한지를 보는 숫자예요. 만약 두 친구가 너무 비슷하면, 그 친구들 모두가 필요하지 않을 수도 있어요. 그래서 이 숫자가 너무 크면, 친구들 중 하나는 필요 없다고 생각할 수 있어요
'[자격증] > ADsP 문제 풀이' 카테고리의 다른 글
[37회 기출 변형 문제] (0) | 2024.10.25 |
---|---|
[3회 모의고사] (2) | 2024.10.24 |
[1회 모의고사] (1) | 2024.10.22 |
[2과목] 기출유형 문제 및 예상 문제 (0) | 2024.10.17 |
[2과목] 문제 풀이_분석 거버넌스 (0) | 2024.10.16 |