[1과목]
01. 다음 중 나머지와 종류가 다른 데이터베이스는?
- Maria DB
- Cassandra
- MongoDB
- HBase
해설
관계형 데이터베이스 관리 시스템 (RDBMS) 리스트
- Oracle: 세계적으로 널리 사용되는 RDBMS로, 다양한 운영 체제에서 지원됩니다
- MySQL: 오픈 소스 RDBMS로, 웹 개발에 많이 사용됩니다
- Microsoft SQL Server: Microsoft에서 개발한 RDBMS로, Windows 서버에서 주로 사용됩니다
- PostgreSQL: 고급 기능과 안정성을 자랑하는 오픈 소스 RDBMS입니다
- IBM Db2: 대규모 데이터를 관리하기에 적합한 RDBMS입니다
- SQLite: 경량의 오픈 소스 RDBMS로, 임베디드 시스템과 모바일 기기에 많이 사용됩니다
- MariaDB: MySQL의 포크로, 오픈 소스 커뮤니티에서 활발히 개발되고 있습니다
NoSQL 데이터베이스 리스트
- MongoDB: 문서 지향 데이터베이스로, JSON과 유사한 BSON 포맷을 사용합니다
- Apache Cassandra: 분산형 NoSQL 데이터베이스로, 높은 확장성과 가용성을 제공합니다
- Redis: 인메모리 키-값 저장소로, 빠른 성능을 자랑합니다
- Couchbase: 문서 및 키-값 저장소로, 분산된 클라우드 기반 데이터베이스입니다
- Neo4j: 그래프 데이터베이스로, 데이터 간의 관계를 중시합니다
- Amazon DynamoDB: AWS에서 제공하는 키-값 및 문서형 NoSQL 데이터베이스입니다
- ElasticSearch: 검색 엔진으로 자주 사용되며, 데이터 분석과 저장에 활용됩니다
- Cassandra: 오픈 소스, 분산형 NoSQL 데이터베이스로, 대규모 데이터 볼륨을 처리할 수 있도록 설계되었습니다.
- HBase: Hadoop 분산 파일 시스템(HDFS) 위에서 작동하는 컬럼 지향의 비관계형 데이터베이스 관리 시스템입니다.
02. 다음 중 데이터 사이언티스트가 갖추어야 할 역량으로 가트너가 제시하지 않은 것은?
- 데이터에 대한 이해
- 분석론에 대한 지식
- 비즈니스 요소에 초점
- 데이터베이스 모델링
해설
- 가트너가 제시한 데이터 사이언티스트의 필요 역량으로는 데이터에 대한 이해, 분석론에 대한 지식, 비즈니스 요소의 초점 외 커뮤니케이션, 협력, 리더십, 창의력 등이 있다.
03. 다음 중 DIKW에 대한 설명으로 가장 부적절한 것은?
- 데이터: 가공되지 않은 있는 그대로의 사실을 나타내는 자료다.
- 정보: 여러 데이터 간 상호 관계 속에서 얻은 의미 있는 자료다.
- 지식: 여러 정보의 종합적인 결과로 개인의 결정에 기준이 되는 가치 있는 자료다.
- 지혜: 개인에게 내재되어 있어 타인과의 공유가 쉽게 가능한 자료다.
해설
- 지혜는 개인 깊숙한 곳에 내재되어 타인과 공유하기 어려운 자료로 운동선수나 악기 연주가의 머슬 메모리(Muscle Memory)를 예시로 들 수 있다.
04. 다음 중 현대사회에서의 빅데이터 기능을 설명하는 것으로 가장 부적절한 것은?
- 현대사회에서 빅데이터는 차세대로 넘어가기 위한 발판을 마련해준다.
- 현대사회에서 빅데이터는 기존에 모르던 새로운 가치를 발견할 수 있도록 도와준다.
- 현대사회에서 빅데이터는 비대면 서비스의 발전을 위한 기술을 제공해준다.
- 현대사회에서 빅데이터는 현대사회의 에너지를 제공해주는 원동력이다.
해설
- 1번: 산업혁명에서의 석탄과 철의 역할을,
- 2번: 미생물의 발견을 도와준 렌즈의 역할을,
- 4번: 원유의 역할에 대한 설명
05. A, B에 들어갈 알맞은 단어는 무엇인가?
데이터의 수집 및 저장 기술의 발전에 따라 분석을 위한 하드웨어적 한계는 존재하지 않는다고 봐도 무방하다. 빅데이터가 도래한 21세기 분석 목적에 맞게 데이터를 선별 및 전처리하여 분석하는 ( A ) 방식에서 가능한 한 많은 데이터를 분석 대상으로 보는 ( B ) 방식으로의 변화가 발생했다.
- 사전처리, 사후처리
- 사후처리, 사전처리
- 상관분석, 인과분석
- 인과분석, 상관분석
[2과목]
06. 다음 중 빅데이터 분석 방법론 중 서로 피드백을 주고받을 수 있는 단계로 바르게 연결된 것은 무엇인가?
- 분석 기획 - 데이터 준비
- 데이터 준비 - 데이터 분석
- 데이터 분석 - 시스템 구현
- 시스템 구현 - 평가 및 전개
해설
- 서로 피드백을 주고받을 수 있는 단계는 데이터 준비와 데이터 분석 단계다
[3과목]
07. 아래의 예시를 수행하기 위해 사용해야 하는 확률분포로 올바른 것은?
두 집단의 평균을 비교할 경우 두 집단의 분산이 같은 경우와 다른 경우의 가설검정 수행 방법이 달라진다. 따라서 두 집단의 분산이 같은지 다른지를 판별하기 위한 등분산 검정을 수행하기 위한 확률분포다.
- 정규분포
- 카이제곱 분포
- T 분포
- F 분포
해설
- F 분포는 등분산 검정 및 분산분석을 위해 활용된다.
- t-분포
- 표준정규분포를 활용하여 모평균(모수)을 추정하기 위해서는 모표준편차를 사전에 알고 있어야 한다. 그러나 현실적으로 모표준편차를 모르기 때문에 t분포를 이용하여 모평균 검정 또는 두 집단의 평균이 동일한지 계산하기 위한 검정통계량으로 활용된다.
- 자유도 커질수록 t분포는 표준정규분포에 가까워 진다.
- 카이제곱 분포
- 표준정규분포를 따르는 확률변수 Z1, Z2, Z3, ..., Zn의 제곱의 합X는 자유도가 n인 카이제곱 분포를 따른다.
- 카이제곱 분포는 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다.
08. 아래 R 명령문을 실행하였을 때 예상되는 결과로 적절한 것은 무엇인가?
x <- c(1:10)
y <- x + 10
plot(x, y, type = 'b', main = 'my plot')
해설
- main = 'my plot'에 의해 산점도 전체 이름이 my plot으로 지정된다. y <- x + 10에 의해 y는 11부터 20까지의 값을 갖는 벡터다.
09. 다음 중 단순선형 회귀분석을 수행하기 위한 가정사항으로 잘못 설명한 것은 무엇인가?
- 선형성: 독립변수와 종속변수는 선형 관계를 가져야 한다.
- 독립성: 잔차는 종속변수와 독립이어야 한다.
- 등분산성: 잔차들의 분산이 모두 동일하다.
- 정규성: 잔차항이 정규분포를 따라야 한다.
해설
10. 다음 중 시계열 분석의 정상성 가정에 대한 설명으로 잘못된 것은 무엇인가?
- 모든 시점 t에 대해 일정한 평균을 갖는다.
- 모든 시점 t에 대해 일정한 분산을 갖는다.
- 공분산은 시점 t에 의존하고 시차 l에 의존하지 않는다.
- 백색잡음은 대표적인 정상성 가정을 만족하는 시계열 자료다.
해설
잘못된 설명
3. 공분산은 시점 t에 의존하고 시차 l에 의존하지 않는다.
정상성 가정에서 공분산은 시점 t에 의존하지 않고 시차 l에만 의존해야 합니다. 즉, 두 시점 간의 공분산이 그 시점의 절대적인 위치가 아니라 두 시점 간의 거리(시차)에만 의존해야 한다는 것입니다. 이는 시계열 데이터가 시간에 따라 변하지 않는 일정한 패턴을 유지한다는 것을 의미합니다.
올바른 설명
1. 모든 시점 t에 대해 일정한 평균을 갖는다.
정상성을 가진 시계열 데이터는 모든 시점에서 일정한 평균을 가져야 합니다. 이는 데이터가 시간에 따라 평균적으로 변화하지 않음을 의미하며, 이러한 특성 덕분에 모델링과 예측이 용이해집니다.
2. 모든 시점 t에 대해 일정한 분산을 갖는다.
정상성 가정에서는 모든 시점에서 분산이 일정해야 합니다. 이는 데이터의 변동성이 시간에 따라 변하지 않음을 나타내며, 이는 안정적인 데이터 패턴을 보장하는 데 중요합니다.
4. 백색잡음은 대표적인 정상성 가정을 만족하는 시계열 자료다.
백색잡음은 평균이 0이고, 모든 시점에서 동일한 분산을 가지며, 서로 독립적인 확률변수로 구성된 시계열입니다. 따라서 정상성을 만족하는 대표적인 예로 간주됩니다. 백색잡음의 자기상관은 0이므로 시간에 따른 패턴이나 추세가 없습니다.
10. 아래는 주성분분석을 시행한 결과다. 다음 중 잘못 설명한 것은 무엇인가?
- prcomp(test, scale = T.center = T)를 사용하여도 동일한 결과를 얻는다.
- 첫 번째 주성분으로 전체 데이터의 약 14%를 설명할 수 있다.
- 첫 번째 주성분은 7개의 모든 변수에 의하여 영향을 받음을 알 수 있다.
- 첫 번째 주성분이 가장 큰 분산을 갖고 있는 축이다.
해설
주성분분석(Principal Components Analysis)의 개념
- 여러 개의 변수 중 서로 상관성이 높은 변수들의 선형 결합으로 새로운 변수(주성분)를 만들어 기존 변수를 요약 및 축소하는 분석 방법이다.
- x, y라는 두 개의 변수에 의하여 자료의 위치정보를 나타낸 데이터가 주어졌다. 두 개의 변수는 데이터를 두 개의 관점에서 바라본다고 할 수 있다. 그러나 두 개의 변수를 이해하기 힘든 경우 데이터들의 변수를 요약하여 하나의 변수로만 데이터의 위치 정보를 나타내는 것이 주성분분석의 목적이다.
주성분분석의 목적
- 변수를 축소하여 모형의 설명력을 높임
- 다중공선성 문제를 해결
- 군집분석 시 모형의 성능을 높일 수 있음
- IoT 센서 데이터를 주성분분석 후 스마트팩토리에 활용
- 주성분분석 시 선형변환이 필요함
주성분분석#1 - 수행 및 해석
주성분분석 #2 - scree plot
- scree plot은 x축을 성분의 개수, y축을 고윳값(eigenvalue)으로 하는 그래프로 주성분의 개수를 선택하는 데 도움을 준다. 일반적으로 고윳값이 1 근처의 값을 갖는 주성분분석의 수를 결정할 수 있다. 그러나 또 다른 방법으로는 그래프가 수평을 이루기 전 단계를 주성분의 수로 선택할 수 있다.
11. A은행은 고객들에게 차별화된 서비스를 제공하고자 고객을 여러 개의 집단으로 나누어보려고 한다. 다음 중 적용할 수 없는 기법은 무엇인가?
- K-평균 군집
- DBSCAN
- 계층적 군집분석
- 랜덤 포레스트
해설
- 군집분석: 비지도학습 중 하나인 군집분석은 여러 변수로 표현된 자료들 사이의 유사성을 측정하고 유사한 자료들끼리 몇 개의 군집(Cluster)으로 묶고 다변량 분석(상관분석, 회귀분석, 주성분분석 등)을 활용하여 각 군집에 대한 특징을 파악하는 기법
- 생물학에서는 종의 분류, 마케팅에서는 시장 세분화, 금융에서는 산업 분석 등 다양하게 활용되며 협업 필터링(Collaborative Filtering) 같은 추천 서비스가 등장하는 기반을 제공
- 군집분석에서 관측치의 유사성을 측정하기 위한 방법으로 거리측도로는 유클리디안 거리, 맨하튼 거리 등이 있고 유사성 측도로는 코사인 거리와 상관계수가 있다. 거리가 가까울수록 유사성이 크다.
- 군집분석의 평가 지표로는 실루엣 계수가 사용되는데, 응집도와 분리도를 계산하며, 그 값이 1에 가까울수록 완벽하게 분리되었다고 판단한다.
K-평균 군집, DBSCAN, 계층적 군집분석, 랜덤 포레스트
K-평균 군집 (K-Means Clustering)
K-평균 군집은 데이터를 미리 정한 K개의 클러스터로 나누는 비계층적 군집화 알고리즘입니다. 초기에는 임의의 중심점을 설정하고, 각 데이터 포인트를 가장 가까운 중심점에 할당합니다. 이후 중심점을 재조정하고, 이 과정을 반복하여 최적의 클러스터를 찾습니다
**장점:**
- 구현이 간단하고 계산 속도가 빠릅니다.
- 대용량 데이터 세트에 적합합니다.
**단점:**
- 클러스터 개수를 사전에 정해야 합니다.
- 원형이 아닌 클러스터나 크기가 다른 클러스터에는 잘 동작하지 않습니다[1][2].
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
DBSCAN은 밀도 기반 군집화 알고리즘으로, 데이터의 밀도에 따라 클러스터를 형성합니다. 주어진 반경 내에 일정 수 이상의 데이터 포인트가 존재하면 하나의 클러스터로 간주합니다[3][4].
**장점:**
- 클러스터의 개수를 미리 설정할 필요가 없습니다.
- 복잡한 모양의 클러스터도 잘 처리하며, 노이즈 데이터를 분리할 수 있습니다.
**단점:**
- 밀도 차이가 큰 경우 적절한 하이퍼 파라미터 설정이 어렵습니다.
- 입력 순서에 따라 결과가 달라질 수 있습니다[1][4].
계층적 군집분석 (Hierarchical Clustering)
계층적 군집분석은 데이터 포인트를 개별 클러스터로 시작하여 가장 유사한 두 클러스터를 합치는 방식으로 진행됩니다. 이 과정을 모든 데이터가 하나의 클러스터가 될 때까지 반복합니다[2].
**장점:**
- 클러스터 개수를 미리 정할 필요가 없습니다.
- 다양한 형태의 클러스터에 적합합니다.
**단점:**
- 계산 복잡성이 높아 큰 데이터 세트에는 부적합합니다.
- 초기 결합 결정이 최종 결과에 큰 영향을 미칩니다[2].
랜덤 포레스트 (Random Forest)
랜덤 포레스트는 앙상블 학습 기법 중 하나로, 여러 개의 의사 결정 트리를 사용하여 예측을 수행합니다. 각 트리는 무작위로 선택된 데이터 샘플과 피처를 사용하여 학습하며, 최종 예측은 모든 트리의 결과를 종합하여 결정됩니다.
**장점:**
- 높은 정확도를 제공하며 과적합을 방지하는 데 효과적입니다.
- 다양한 데이터 유형과 문제에 적용 가능합니다.
**단점:**
- 모델이 복잡하고 해석하기 어려울 수 있습니다.
- 훈련 시간이 길어질 수 있습니다[5].
## 차이점 요약
12. 다음 중 과적합에 대한 예시로 부적절한 것은 무엇인가?
- 인공신경망을 활용한 분류 분석에 많은 수의 은닉층과 은닉노드를 사용.
- 5개의 변수를 갖는 데이터로 구축한 의사결정나무의 깊이가 10층 이상이다.
- 5개의 변수를 갖는 데이터에서 각 변수에 대한 2차항과 3차항을 만들어 총 15개의 독립변수를 사용하여 설명력을 높였다.
- 배깅에서 1만 개의 이상적인 트리를 구축하여 분류 모형을 구축하였다.
해설
과적합(Overfitting)은 모델이 학습 데이터에 너무 잘 맞아 일반화 성능이 떨어지는 현상입니다. 주로 모델이 너무 복잡하거나, 학습 데이터에 비해 모델의 자유도가 높을 때 발생합니다. 이제 각 선택지를 살펴보겠습니다.
- 인공신경망을 활용한 분류 분석에 많은 수의 은닉층과 은닉노드를 사용.
- 인공신경망에서 은닉층과 노드 수가 많아지면 모델의 표현력이 증가하지만, 과적합의 위험도 커집니다. 이는 학습 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어질 수 있음을 의미합니다.
- 5개의 변수를 갖는 데이터로 구축한 의사결정나무의 깊이가 10층 이상이다.
- 의사결정나무의 깊이가 깊어질수록 모델은 학습 데이터에 더 잘 맞출 수 있지만, 과적합될 가능성이 큽니다. 특히 변수가 적은 경우, 깊은 나무는 불필요하게 복잡해질 수 있습니다.
- 5개의 변수를 갖는 데이터에서 각 변수에 대한 2차항과 3차항을 만들어 총 15개의 독립변수를 사용하여 설명력을 높였다.
- 원래 변수에 다항식을 추가하여 설명력을 높이는 것은 모델의 복잡성을 증가시킵니다. 이는 과적합의 전형적인 예입니다, 왜냐하면 모델이 학습 데이터의 노이즈까지 설명하려고 할 수 있기 때문입니다.
- 배깅에서 1만 개의 이상적인 트리를 구축하여 분류 모형을 구축하였다.
- 배깅(Bagging)은 여러 트리를 결합하여 예측 성능을 향상시키는 기법입니다. 이 방법은 개별 트리의 과적합을 줄이는 데 효과적입니다. 따라서 많은 수의 트리를 사용하는 것은 오히려 과적합을 방지하는 데 도움이 됩니다.
따라서, 4번은 과적합과 관련된 부적절한 예시입니다. 배깅은 여러 모델을 결합하여 개별 모델이 가진 과적합 문제를 완화하는 데 사용되므로, 많은 트리를 사용하는 것이 과적합으로 이어지지는 않습니다. 오히려 이는 일반화 성능을 높이는 방법 중 하나입니다.
- 배깅은 Bootstrap Aggregating의 줄임말로 여러 개의 붓스트랩(Bootstrap)을 집계하는 알고리즘이다.
- 붓스트랩이란 원본 데이터와 같은 크기의 표본을 랜덤복원추출한 샘플 데이터를 의미하며, 특히 모델 구축을 위한 훈련용(train) 데이터를 가리킨다. 복원추출이기 때문에 하나의 붓스트랩에는 같은 데이터가 여러 번 추출될 수도 있지만, 그렇지 않을 수도 있다.
- 앙상블 분석에서 각각의 모델을 분류기(classfier)라고 부르며, 흔히 의사결정나무를 사용한다. 여러 개의 분류기에 의한 결과를 놓고 다수결에 의하여 최종 결괏값을 선정하는 작업을 보팅(voting)이라 한다.
- 분석을 위한 데이터 모집단의 분포를 현실적으로 알 수 없다. 그러나 하나의 붓스트랩을 구성할 때 원본 데이터로부터 복원추출을 진행하기 때문에 붓스트랩은 알 수 없던 모집단의 특성을 더 잘 반영할 수 있다. 배깅은 모집단의 특성이 잘 반영되는 분산이 작고 좋은 예측력을 보여준다.
인공신경망 (Artificial Neural Network)
인공신경망(ANN)은 인간 뇌의 신경망에서 영감을 받아 개발된 알고리즘으로, 주로 기계 학습과 인지 과학에서 사용됩니다. 인공신경망은 여러 개의 인공 뉴런(노드)이 연결되어 네트워크를 형성하며, 학습을 통해 시냅스의 결합 세기를 변화시켜 문제 해결 능력을 갖춥니다
구성 요소:
- 입력층: 데이터를 입력받는 층으로, 각 노드는 입력 데이터의 특징을 나타냅니다.
- 은닉층: 입력층과 출력층 사이에 위치하며, 데이터의 패턴을 학습합니다. 여러 개의 은닉층을 가질 수 있으며, 이는 모델의 복잡성을 증가시킵니다.
- 출력층: 최종 결과를 출력하는 층입니다.
- 활성화 함수: 입력값을 처리하여 다음 층으로 전달할 값을 결정하는 함수입니다. 대표적인 활성화 함수로는 Sigmoid, ReLU 등이 있습니다.
인공신경망은 지도 학습과 비지도 학습 모두에 사용될 수 있으며, 특히 패턴 인식, 이미지 및 음성 인식 등 다양한 분야에서 활용됩니다
의사결정나무 (Decision Tree)
의사결정나무는 비매개변수적 지도 학습 알고리즘으로, 분류와 회귀 작업 모두에 사용됩니다. 트리 구조로 되어 있으며, 루트 노드에서 시작하여 각 분기점에서 데이터를 특정 기준에 따라 분할해 나갑니다
구성 요소:
- 루트 노드: 트리의 시작점으로, 모든 데이터가 이곳에서 출발합니다.
- 내부 노드: 결정 노드라고도 하며, 특정 기준에 따라 데이터를 분할합니다.
- 가지: 노드를 연결하는 경로로, 데이터가 어떻게 분할되는지를 나타냅니다.
- 잎 노드: 최종 결과를 나타내며, 더 이상 분할되지 않는 지점입니다.
의사결정나무는 직관적이고 해석하기 쉬우며, 다양한 데이터 유형을 처리할 수 있다는 장점이 있습니다. 그러나 트리가 너무 깊어지면 과적합이 발생할 수 있으며, 이를 방지하기 위해 가지치기(pruning) 등의 기법이 사용됩니다
13. 다음 중 연관분석의 측도에 대한 설명으로 올바른 것은?
- 향상도 A -> B: A를 구매하지 않았을 때 품목 B를 구매할 확률 대비, A를 구매했을 때 품목 B의 구매 확률의 증가 비율을 의미한다.
- 신뢰도 A -> B: 두 개의 품목 A, B에 대하여 구매 발생 비율을 의미한다.
- 지지도 B -> A: 품목 A가 구매되었을 때 품목 B의 구매 확률을 의미한다.
- 향상도 A -> B: 품목 A가 구매될 때 B가 구매될 확률 대비 품목 A가 구매될 비율을 의미한다.
해설
https://www.youtube.com/watch?v=h8O5EIAXwyk
- 연관분석의 측도는 주로 지지도(Support), 신뢰도(Confidence), 향상도(Lift)로 구성됩니다.
- 향상도(Lift)는 A를 구매했을 때 B를 구매할 확률이 A를 구매하지 않았을 때 B를 구매할 확률보다 얼마나 증가했는지를 나타냅니다.
- 신뢰도(Confidence)는 A를 구매했을 때 B도 함께 구매할 확률을 의미합니다.
- 지지도(Support)는 전체 거래 중에서 A와 B가 동시에 포함된 거래의 비율을 나타내며, 특정 품목이 다른 품목과 함께 구매되는 빈도를 나타냅니다.
- 향상도는 두 사건이 독립적인 경우와 비교하여 얼마나 자주 함께 발생하는지를 나타내는 비율입니다
14. 아래의 A, B, C 세 개의 데이터에 대하여 맨하튼 거리를 계산하여 군집을 수행할 때 가장 처음으로 군집화되는 데이터로 올바르게 묶은 것은?
해설
- AB 맨하튼 거리: (|2-(-1)|) + (|5-2|) + (|8-5|) = 9
- BC 맨하튼 거리: (|(-1)-3|) + (|2-4|) + (|5-2|) = 9
- CA 맨하튼 거리: (|3-2|) + (|4-5|) + (|2-8|) = 8
15. 다음 중 의사결정나무의 특징으로 부적절한 것은 무엇인가?
- 이상값에 민감하여 완벽한 이상값 처리를 요구한다.
- 여러 독립변수들 사이의 중요도를 판단하기 쉽지 않다.
- 분류 경계선에서 높은 오차를 갖는다.
- 누구나 쉽게 분석 결과를 이해할 수 있다.
해설
의사결정나무는 마치 게임처럼 생각할 수 있어요. 나무의 뿌리에서 시작해서 가지를 따라가면서 질문에 답을 하는 거예요. 각 질문은 "예" 또는 "아니오"로 대답할 수 있는 간단한 질문이에요.
예를 들어볼게요:우리가 "어떤 과일인지 알아맞히기" 게임을 한다고 해볼까요?
첫 번째 질문: 과일의 색깔이 빨간색인가요?예: 다음 질문으로 넘어가요.아니오: 다른 가지로 가서 다른 질문을 해요.
두 번째 질문: 과일이 동그란가요?예: 아마도 사과일 거예요!아니오: 아마도 딸기일 거예요!
이렇게 나무를 따라가면서 질문에 답하다 보면, 결국에는 우리가 찾고 있는 답을 찾게 돼요.왜 나무라고 부를까요?나무는 뿌리에서 시작해서 여러 가지로 퍼져나가죠. 의사결정나무도 똑같아요! 처음에 하나의 질문(뿌리)에서 시작해서 여러 가지(가지)로 나뉘어져서 결국엔 답(잎사귀)에 도달하게 돼요.
의사결정나무는 이렇게 간단한 질문들을 통해 복잡한 문제도 쉽게 풀 수 있게 도와주는 도구랍니다!
- 이상값에 민감하여 완벽한 이상값 처리를 요구한다.
- 의사결정나무는 이상값(outlier)에 비교적 강건한 특성을 가집니다. 이상값이 있어도 트리의 구조가 크게 변하지 않기 때문에, 이상값 처리에 대한 민감도가 낮습니다. 따라서 이 설명은 부적절합니다.
- 여러 독립변수들 사이의 중요도를 판단하기 쉽지 않다.
- 의사결정나무는 변수의 중요도를 쉽게 파악할 수 있습니다. 각 분할에서 사용된 변수는 그 중요도를 나타내며, 트리 구조를 통해 변수 간의 중요도를 비교할 수 있습니다. 따라서 이 설명은 부적절합니다.
- 분류 경계선에서 높은 오차를 갖는다.
- 의사결정나무는 계단식 분류 경계를 가지기 때문에, 특히 경계가 복잡한 경우 높은 오차를 가질 수 있습니다. 이는 의사결정나무의 일반적인 단점 중 하나입니다.
- 누구나 쉽게 분석 결과를 이해할 수 있다.
- 의사결정나무는 직관적이고 시각적으로 표현하기 쉬워, 분석 결과를 이해하기 용이합니다. 이는 의사결정나무의 장점입니다.
따라서, 1번과 2번이 부적절한 설명입니다. 특히, 의사결정나무는 이상값에 민감하지 않으며, 변수 중요도를 판단하기 쉽다는 점에서 1번이 가장 부적절한 특징입니다.
16. 아래의 모집단을 보고 붓스트랩을 생성할 때 올바른 붓스트랩은 무엇인가?
해설
- 데이터 마이닝이란: 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다. 인공지능이 발달함에 따라 컴퓨터가 스스로 학습하는 알고리즘인 머신러닝을 구현하기 위한 바탕이 된다.
- 붓스트랩은 모집단과 크기가 동일해야 한다.
17. 다음 중 아래의 결과를 보고 정밀도 값을 바르게 계산한 것은?
- 8/9
- 7/9
- 2/3
- 5/9
해설
- 정밀도는 True로 예측한 것 중 실제 값이 True인 비율을 나타내는 값이다.
- 40/(40+5) = 8/9
18. 다음 중 자기조직화지도에 대한 설명으로 올바른 것은 무엇인가?
- 인공신경망을 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 시각화한 기법으로 분류 분석의 일종이다.
- 한번 경쟁층에 도달한 입력 벡터는 가중치가 변경되어도 입력 벡터에 대한 승자노드는 변경되지 않는다.
- 역전파 알고리즘을 사용하여 빠른 방식으로 군집을 수행한다.
- 가까운 뉴런은 더 가깝게, 먼 뉴런은 더 멀게 가중치를 조정해가며 군집을 형성하는 방법이다.
해설
- 인공신경망을 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 시각화한 기법으로 분류 분석의 일종이다.
- 이 설명은 SOM의 특성을 잘 설명하고 있습니다. SOM은 고차원의 데이터를 저차원의 뉴런으로 정렬하여 시각화하는 비지도 학습 기법입니다. 그러나 "분류 분석"이라는 표현은 SOM의 주된 목적이 아니며, 주로 차원 축소와 군집화에 사용됩니다.
- 한번 경쟁층에 도달한 입력 벡터는 가중치가 변경되어도 입력 벡터에 대한 승자노드는 변경되지 않는다.
- 이 설명은 SOM의 작동 원리를 잘못 설명하고 있습니다. 실제로는 가중치가 변경되면서 승자 노드도 변경될 수 있습니다. 승자 노드는 입력 벡터와 가장 유사한 노드로, 학습 과정에서 가중치가 조정되면 다른 노드가 승자가 될 수 있습니다
- 역전파 알고리즘을 사용하여 빠른 방식으로 군집을 수행한다.
- SOM은 역전파 알고리즘을 사용하지 않습니다. 대신 경쟁 학습을 통해 군집화를 수행합니다. 역전파는 주로 지도 학습에 사용되는 알고리즘입니다.
- 가까운 뉴런은 더 가깝게, 먼 뉴런은 더 멀게 가중치를 조정해가며 군집을 형성하는 방법이다.
- 이 설명이 SOM의 핵심 원리를 가장 잘 설명하고 있습니다. SOM은 입력 벡터와 가장 유사한 뉴런(승자 노드)뿐만 아니라 그 주변의 이웃 노드들도 함께 가중치를 조정하여 유사한 데이터들이 가까운 위치에 배치되도록 합니다
19. 다음 중 K-평균 군집에 대한 설명으로 부적절한 것은 무엇인가?
- 최단 연결법을 사용하는 경우 seed의 값은 자동으로 결정된다.
- 잡음이나 이상값에 민감하기 때문에 평균 대신 중앙값을 사용하기도 한다.
- seed의 변경에 따라 데이터들을 다른 군집으로 이동할 수 있다.
- 분석을 수행하기에 앞서 사전에 주어진 목적이 없기 때문에 결과의 해석이 어렵다
해설
- 최단 연결법을 사용하는 경우 seed의 값은 자동으로 결정된다.
- K-평균 군집에서는 초기 중심점(seed)을 설정하는 방법이 중요한데, 최단 연결법과 같은 방법은 K-평균 군집의 초기 중심점 설정과 관련이 없습니다. K-평균에서는 주로 랜덤하게 초기 중심점을 설정하거나 k-means++와 같은 방법을 사용합니다. 따라서 이 설명은 부적절합니다.
- 잡음이나 이상값에 민감하기 때문에 평균 대신 중앙값을 사용하기도 한다.
- K-평균 군집은 잡음이나 이상값에 민감한 알고리즘입니다 . 평균 대신 중앙값을 사용하는 것은 K-중앙값(K-medians)이나 K-중앙점(K-medoids)과 같은 변형된 알고리즘에서 사용하는 방법입니다.
- seed의 변경에 따라 데이터들을 다른 군집으로 이동할 수 있다.
- K-평균 군집에서 초기 중심점(seed)의 선택은 결과에 큰 영향을 미칩니다. 다른 seed를 사용하면 데이터가 다른 군집으로 이동할 수 있습니다.
- 분석을 수행하기에 앞서 사전에 주어진 목적이 없기 때문에 결과의 해석이 어렵다.
- K-평균 군집은 비지도 학습 방법이기 때문에 사전에 주어진 목적 없이 데이터를 군집화합니다. 따라서 결과의 해석이 어려울 수 있습니다.
20. 다음 중 단순회귀분석에서 최소제곱법에 대한 설명으로 올바른 것은 무엇인가?
- 실제값과 추정값의 차이의 제곱합이 최소가 되는 회귀계수와 회귀상수를 찾는 방법
- 실제값과 추정값의 차이의 합의 제곱이 최소가 되는 회귀계수와 회귀상수를 찾는 방법
- 실제값과 추청값의 차이의 제곱합이 최소가 되는 결정계수와 F-통계량을 찾는 방법
- 실제값과 추정값의 차이의 합의 제곱이 최소가 되는 결정계수와 F-통계량을 찾는 방법
해설
- 단순회귀분석에서 최소제곱법(OLS, Ordinary Least Squares)은 주어진 데이터에 가장 잘 맞는 직선을 찾기 위해 사용되는 방법입니다. 이 방법은 실제 관측값과 모델이 예측한 값 간의 차이, 즉 잔차(residual)의 제곱합을 최소화하는 회귀계수(기울기와 절편)를 찾는 것을 목표.
21. 데이터 마이닝은 그 특성에 따라 지도학습과 비지도학습으로 나눌 수 있다. 다음에 나열된 기법 중 그 특성이 다른 것은 무엇인가?
- Expectation Maximization Algorithm
- K-Means Clusetering
- Apriori Algorithm
- Linear Regression
해설
- Expectation Maximization Algorithm (EM Algorithm)
- EM 알고리즘은 비지도 학습 알고리즘으로, 관측되지 않은 잠재 변수를 포함한 통계 모델의 매개변수를 최대 우도 추정 또는 최대 사후 확률 추정을 통해 찾는 방법입니다. 주로 클러스터링과 같은 비지도 학습 문제에 사용됩니다.
- K-Means Clustering
- K-평균 군집화는 비지도 학습 알고리즘으로, 레이블이 없는 데이터를 여러 군집으로 나누는 데 사용됩니다. 데이터 포인트를 중심점(centroid)과의 거리 기반으로 군집화하는 방법입니다.
- Apriori Algorithm
- Apriori 알고리즘은 비지도 학습 알고리즘으로, 연관 규칙 학습을 통해 데이터 내의 항목 간의 관계를 식별합니다. 주로 시장 바구니 분석과 같은 응용 분야에서 사용됩니다
- Linear Regression
21. 분류 분석을 평가하기 위한 지표는 여러 가지가 있다. 재현율과 정밀도 모두 모형의 True의 예측 정도를 나타내는 지표지만 두 지표는 높은 확률로 음의 상관관계를 가질 수 있다는 문제가 있는데, 이를 해결하기 위해 등장한 것이 F1-SCORE이다. 다음 중 F1-SCORE를 구하는 식으로 올바른 것은?(A는 재현율, B는 정밀도)
해설
'[자격증] > ADsP 문제 풀이' 카테고리의 다른 글
[3회 모의고사] (2) | 2024.10.24 |
---|---|
[2회 모의고사] (0) | 2024.10.23 |
[2과목] 기출유형 문제 및 예상 문제 (0) | 2024.10.17 |
[2과목] 문제 풀이_분석 거버넌스 (0) | 2024.10.16 |
[2과목] 데이터 분석 기획_문제 풀이 (0) | 2024.10.13 |