≣ 목차
[1과목]
01. 데이터베이스 설계 절차로 적절한 것은?
- 요구사항 분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계
해설
- 1. 요구 사항 분석
- 목적: 데이터베이스가 충족해야 할 사용자 요구 사항을 수집하고 분석합니다.
- 활동: 사용자와의 인터뷰, 설문조사 등을 통해 시스템의 목표와 필요한 기능을 정의하고, 업무 규칙을 파악합니다.
- 목적: 요구 사항을 바탕으로 데이터와 그 관계를 추상화하여 개념적 데이터 모델을 만듭니다.
- 활동: ER 다이어그램을 사용하여 엔티티, 속성, 관계를 식별하고, 데이터 무결성을 검토합니다.
- 목적: 개념적 설계를 실제 DBMS에 맞게 변환하여 논리적 데이터 모델을 만듭니다.
- 활동: 테이블 구조를 설계하고, 정규화를 통해 중복 및 이상 현상을 제거하며, 인덱스와 트랜잭션, 제약 조건 등을 정의합니다.
- 목적: 논리적 구조를 기반으로 물리적 저장 구조를 설계하여 효율적인 데이터베이스 성능을 지원합니다.
- 활동: 저장 장치의 특성을 고려하여 인덱스 구조, 접근 경로 등을 설계하며, 반응 시간과 저장 공간 활용도를 최적화합니다.
- 목적: 설계된 데이터베이스 구조를 실제 DBMS에서 구현하여 운영 가능한 상태로 만듭니다.
- 활동: SQL 명령문을 사용하여 테이블과 인덱스를 생성하고 데이터를 입력하며, 응용 프로그램에서 사용할 트랜잭션을 작성합니다
02. 데이터 웨어하우스에 대한 설명으로 가장 부적절한 것은?
- 데이터 웨어하우스에서 관리하는 데이터는 시간의 흐름에 따라 변화하는 값을 저장한다.
- ETL은 주기적으로 운영 시스템에서 데이터를 추출, 가공하여 데이터 웨어하우스에 적재한다.
- 데이터 웨어하우스는 데이터를 일관된 형식으로 관리한다.
- 전사적 차원에서 접근하기보다는 재무, 생산, 운영과 같이 특정 업무 분야에 초점을 맞춰 구축한다.
해설
- ETL(Extract, Transform, Load): 추출, 변환, 로드
- 데이터 웨어하우스: 비즈니스 인텔리전스와 분석을 위해 설계된 데이터 관리 시스템. 대량의 데이터를 수집하고 저장하여, 이를 분석 및 쿼리에 사용할 수 있도록 한다. 전사적 차원에서 접근한다.
데이터 웨어하우스의 주요 특징
- 중앙 저장소: 데이터 웨어하우스는 여러 소스로부터 데이터를 통합하여 중앙 저장소에 보관합니다. 이를 통해 조직 내 모든 데이터가 한 곳에서 접근 가능해지며, 부서 간 일관된 데이터 분석이 가능합니다
- OLAP 지원: 데이터 웨어하우스는 온라인 분석 처리(OLAP)를 지원하여 대량의 역사적 데이터를 빠르고 복잡한 쿼리를 통해 분석할 수 있습니다. 이는 운영 데이터베이스의 OLTP(온라인 트랜잭션 처리)와 대비됩니다.
- 데이터 일관성 및 품질: 다양한 소스에서 수집된 데이터를 표준화된 형식으로 변환하여 데이터의 일관성과 품질을 유지합니다. 이는 비즈니스 부서 간에 동일한 데이터를 사용하여 일관된 보고서를 생성할 수 있게 합니다.
- 역사적 데이터 저장: 과거의 데이터를 저장하고 분석할 수 있어, 시간에 따른 트렌드와 패턴을 파악하는 데 유용합니다. 이는 기업이 전략적 결정을 내리는 데 중요한 인사이트를 제공합니다.
데이터 웨어하우스의 이점
- 비즈니스 인사이트 강화: 데이터를 통합하고 분석함으로써 비즈니스 인사이트를 강화하고, 더 나은 의사 결정을 지원합니다.
- 데이터 접근성 향상: 사용자가 여러 시스템에 로그인할 필요 없이 한 인터페이스에서 모든 데이터를 쉽게 접근할 수 있습니다.
- 자동화 및 효율성: 데이터 추출 및 전송을 자동화하여 정보 수집과 시각화에 필요한 시간을 줄이고, 더 빠르게 인사이트를 도출할 수 있습니다
03. 다음 중 데이터 모델링에 대한 설명으로 올바른 것은?
- 데이터 포인트 간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스이다.
- 중복된 데이터를 최소화하여 데이터베이스를 효율적으로 관리하기 위한 일련의 프로세스이다.
- 모델 구축을 위해 입력 데이터 및 출력 데이터를 정의하는 작업을 의미한다.
- 구축된 모델에 대해 정확도 향상을 위해 보와나 작업을 수행하기 위한 작업을 의미한다.
해설
- 개념 개요
- 데이터 모델링은 데이터를 구조화하고 그 관계를 이해하기 위해 사용하는 과정입니다. 이는 데이터를 시각적으로 표현하여 데이터 간의 연결과 관계를 명확히 하는 데 도움을 줍니다.
04. 다음은 데이터베이스에 작업을 수행하기 위한 명령어를 나열한 것이다. 다음 중 나머지와 그 성격이 다른 것은
- SELECT
- CREATE
- UPDATE
- DELETE
해설
- 개념 개요
- 데이터베이스 명령어는 주로 데이터 조작 언어(DML)와 데이터 정의 언어(DDL)로 나뉩니다. DML은 데이터의 조회, 삽입, 갱신, 삭제를 다루고, DDL은 데이터베이스 구조를 정의하거나 변경하는 데 사용됩니다.
05.
06.
07.
[2과목]
01. 다음 중 데이터 분석 방법론의 구성 요소가 아닌 것은 무엇인가?
- 상세한 절차
- 방법
- 도구와 기법
- 분석 모델
해설
02. 다음 중 CRISP-DM 방법론의 모델링 단계에서 수행하는 태스크가 아닌 것은?
- 모델 테스트 계획 설계
- 모델링 기법 선택
- 모델 평가
- 모델 적용성 평가
해설
03. 다음 중 분석 준비도의 구성 요소 중 하나인 분석 업무 파악을 진단하기 위한 항목이 아닌 것은?
- 예측 분석 업무
- 최적화 분석 업무
- 업무별 적합한 분석 기법 사용
- 분석 업무의 정기적 개선
해설
업무 파악 | - 발생한 사실 분석 업무 - 예측 분석 업무 - 시뮬레이션 분석 업무 - 최적화 분석 업무 - 분석 업무 정기적 개선 |
분석 데이터 | - 분석 업무를 위한 데이터 - 충분성/신뢰성/적시성 - 비구조적 데이터 관리 - 외부데이터 활용 체계 - 기준 데이터 관리(MDM) |
인력 및 조직 | - 분석전문가 직무 존재 - 분석전문가 교육 훈련프로그램 - 관리자 기본 분석 능력 - 전사총괄조직 - 경영진 분석 업무 이해 |
분석 기법 | - 업무별 적합한 분석 기법 사용 - 분석 업무 도입 방법론 - 분석 기법 라이브러리 - 분석 기법 효과성 평가 - 분석 기법 정기적 개선 |
문화 | - 사실에 근거한 의사결정 - 관리자의 데이터 중시 - 회의 등에서 데이터 활용 - 경영진 직관보다 데이터 활용 - 데이터 공유 및 협업 문화 |
IT 인프라 | - 운영 시스템 데이터 통합 - EAI, ETL 등 데이터 유통체계 - 분석 전용 서버 및 스토리지 - 빅데이터/통계/비주얼 분석환경 |
04. 다음 중 분석 성숙도가 활용 단계에 머물러 있는 기업이 현재 수행하고 있는 업무로 적절한 것은 무엇인가?
- 비즈니스 부문에서 미래 결과를 예측
- 비즈니스 부문에서 실적 분석을 위한 통계 기법 사용
- IT 부문에서 빅데이터 분석을 수행
- IT 부문에서 분석 전용 서버를 구축
해설
비즈니스 부문 | 1단계. 도입 | 2단계. 활용 | 3단계. 확산 | 4단계. 최적화 |
분석 시작, 환경과 시스템 구축 | 분석 결과를 업무에 적용 | 전사 차원에서 분석 관리, 공유 | 분석을 진화시켜 혁신 및 성과 향상에 기여 | |
- 실적 분석 및 통계 - 정기 보고 수행 - 운영 데이터 기반 |
- 미래결과 예측 - 시뮬레이션 - 운영 데이터 기반 |
- 전사성과 실시간 분석 - 프로세스 혁신 3.0 - 분석규칙 관리 - 이벤트 관리 |
- 외부 환경 분석 활용 - 최적화 업무 적용 - 실시간 분석 - 비즈니스 모델 진화 |
조직, 역량 부문 | 1단계. 도입 | 2단계. 활용 | 3단계. 확산 | 4단계. 최적화 |
분석 시작, 환경과 시스템 구축 | 분석 결과를 업무에 적용 | 전사 차원에서 분석 관리, 공유 | 분석을 진화시켜 혁신 및 성과 향상에 기여 | |
- 일부 부서에서 수행 - 담당자 역량에 의존 |
- 전문담당부서 수행 - 분석 기법 도입 - 관리자가 분석 수행 |
- 전사 모든 부서 수행 - 분석 COE 운영 - 데이터 사이언티스트 확보 |
- 데이터 사이언스 그룹 - 경영진 분석 활용 - 전략 연계 |
IT 부문 | 1단계. 도입 | 2단계. 활용 | 3단계. 확산 | 4단계. 최적화 |
분석 시작, 환경과 시스템 구축 | 분석 결과를 업무에 적용 | 전사 차원에서 분석 관리, 공유 | 분석을 진화시켜 혁신 및 성과 향상에 기여 | |
- 데이터 웨어하우스 - 데이터 마트 - ETL/EAI - OLAP |
- 실시간 대시보드 - 통계분석 환경 |
- 빅데이터 관리 환경 - 시뮬레이션, 최적화 - 비주얼 분석 - 분석 전용 서버 |
- 분석 협업환경 - 분석 Sandbox - 프로세스 내재화 - 빅데이터 분석 |
05. 데이터 분석의 지속적인 적용 및 확산을 위한 분석 거버넌스 체계의 구성 요소가 아닌 것은 무엇인가?
- 분석 관련 시스템
- 데이터
- 분석 과제 기획
- 분석으로 얻는 가치
해설
06. 마스터플랜 수립 시 적용 범위 및 방식의 고려사항이 아닌 것은?
- 투입 비용 수준
- 업무 내재화 적용 수준
- 분석 데이터 적용 수준
- 기술 적용 수준
해설
07. 다음 중 시스템 엔지니어링, 프로젝트 관리, 인수 및 서비스 등을 포함한 광범위한 분야를 포괄하여 개인 또는 조직의 프로세스별 수준을 5가지 단계로 나타낸 소프트웨어와 시스템 공학의 역량 성숙도를 평가하는 모델은 무엇인가?
- CMM
- CMMI
- SPICE
- ISO-9000
해설
- CMMI(Capability Maturity Model Integration)은 조직의 프로세스 개선을 지원하기 위한 모델로, 소프트웨어 개발, 시스템 엔지니어링, 프로젝트 관리 등 다양한 분야에 적용
08. 데이터 거버넌스는 크게 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동의 4개 단계로 나눌 수 있다. 다음 중 데이터 저장소 관리에서 수행하기에 적절한 업무는 무엇인가?
- 데이터 생명주기 관리 방안
- 모니터링
- 사전 영향 평가
- 데이터 사전 구축
해설
- 1 - 데이터 관리 체계
- 2 - 표준화 활동
- 3 - 데이터 저장소 관리
- 4 - 데이터 표준화
09. 기업의 데이터 분석 도입 수준을 명확하게 파악하기 위해 사용하는 분석 준비도의 구성 요소로 가장 적절하지 않은 것은?
- 분석 자원
- 분석 인프라
- 분석 기법
- 분석 인력
해설
11. 데이터 거버넌스 체계의 구성 요소가 아닌 것은?
- 원칙
- 조직
- 인력
- 프로세스
해설
- 데이터 거버넌스 체계의 구성 요소는 '원칙' '조직' '프로세스' 3가지이다.
12. 하향식 접근법의 타당성 검토 단계에 대한 설명으로 가장 부적절한 것은?
- 탐색한 여러 해결 방안 중 가장 효율적인 방안을 찾기 위한 단계다.
- 경제적 타당성에서 ROI 관점에서 접근한다.
- 기술적 타당성에서는 데이터 존재 여부 및 분석 역량을 파악한다.
- 분석 역량과 분석 기법, 시스템 등을 고려하여 해결 방안을 모색한다.
해설
- 문제 탐색 단계
- 비즈니스 모델 탐색 기법
- 분석 기회 발굴 및 범위 확장
- 외부 참조 모델 기반 문제 탐색
- 분석 유스케이스
- 문제 정의 단계
- 식별된 비즈니스 문제를 데이터 문제로 변환하여 과제를 정의
- 해결 방안 탐색 단계
- 과제 정의 후 어떻게 해결할 것인지 방안을 탐색(분석 기법, 시스템 등)
- 타당성 검토 단계
- 경제적 타당성, 기술적 타당성 등을 검토
13. 다음 중 분석 과제를 관리하기 위한 주요 영역이 아닌 것은 무엇인가?
- 데이터 복잡도
- 데이터 분석 속도
- 데이터 양
- 데이터의 신뢰도
해설
- 분석 과제를 관리하기 위한 주요 5가지 영역으로는 데이터 복잡도, 분석 속도, 분석 복잡도, 데이터 양, 정확도와 정밀도 5가지가 있다.
- 데이터의 양: 양이 방대할 경우 하둡이나 클라우드 같은 분석환경을 활용하는 것이 유리
- 데이터 복잡도: 텍스트, 오디오, 비디오 등 다양한 비정형 데이터를 분석할 때 초기 데이터의 확보와 통합뿐 아니라 해당 데이터에 잘 적용될 수 있는 모델을 고려
- 분석의 속도: 실시간 - 일주일 - 한 달 등 프로젝트에 따라 필요 기한이 짧기도 하고 길기도 하다. 그에 맞춰 수행해야 한다.
- 분석 복잡도: 분석 모델의 정확도와 복잡도는 트레이드오프 관계. 복잡도가 올라갈수록 정확도가 올라간다. 모델의 정확도가 높으면서 해석이 편리한 최적의 모델을 탐색해야 한다.
- 정확도 & 정밀도: 정확도는 모델과 실제 값 간의 차이가 적음을 의미. 정밀도는 반복적으로 모델을 사용했을 때 모델 값들의 편차 수준
14. 정보시스템을 전략적으로 활용하기 위해 기업의 내부 및 외부 환경을 분석하고 기업의 문제 또는 기회를 발견하고 사용자의 요구사항을 분석하는 등 중장기 마스터플랜을 수립하는 과정은 무엇인가?
- ISP
- MSA
- SQL
- ICT
해설
- ISP(Information Strategy Planning): 조직의 목표를 지원하기 위해 정보 기술(IT)과 시스템을 효과적으로 활용하는 전략을 수립하는 과정
15. 다음 중 분석 방법론을 구선하는 요소 중 산출물에 대한 예시와 그 설명으로 부적절한 것은 무엇인가?
- WBS: 업무 분업 구조로 프로젝트를 작은 단위의 업무로 나누어 수행자 및 수행 기간을 명시한 문서다.
- ERD: 프로젝트를 효과적으로 관리하기 위해 여러 프로그램끼리의 연결 관계를 그린 관계 다이어그램이다.
- 프로그램 목록: 프로젝트를 수행하면서 산출되는 작은 단위부터 큰 단위까지 모든 프로그램을 나열한 목록이다.
- 데이터 명세서: 데이터를 관리하기 위한 문서로 변수명, 속성, 목적 및 활용 방안 등을 포함할 수 있다.
16. 다음 중 분석 기획 고려사항에 대한 설명으로 가장 관련이 적은 것은?
- 분석의 재료가 되는 사용 가능한 데이터의 존재 여부를 반드시 고려해야 한다.
- 기존 실패 사례 등 유스케이스를 확보하여 과거의 전례를 밟지 않도록 한다.
- 분석을 수행하는 데 있어 발생 가능한 장애요소에 대한 사전계획을 수립한다.
- 확보한 데이터들을 어떻게 분석할 수 있을지 분석 기법과 분석의 목적을 설정한다.
해설
- 분석 기획 시 3가지 주요 고려사항으로는
- 가용 데이터의 존재 여부
- 유스케이스 탐색
- 장애요소에 대한 사전계획 수립
- 오답 노트
• 4번은 분석 기법과 목적 설정이 중요하지만, 이는 데이터 확보 후에 이루어지는 부분으로, 다른 항목들에 비해 초기 단계에서 직접적으로 고려해야 할 사항은 아닙니다.
17. 다음 중 과제의 우선순위를 결정할 때 고려해야 하는 요소가 아닌 것은?
- 전략적 중요도
- 비즈니스 성과 및 ROI
- 기술 적용 수준
- 분석 과제의 실행 용이성
18. 다음 중 분석 마스터플랜에 대한 설명으로 가장 부적절한 것은 무엇인가?
- 탐색한 문제에 대한 해결 방안들을 총체적인 관점에서 적용 우선순위를 설정하기 위함이다.
- 우선순위 결정을 위해서는 전략적 중요도, ROI 관점 등의 요소를 고려한다.
- 적용 범위 및 방식을 고려하기 위해 실행 용이성과 기술 적용 수준의 요소를 고려한다.
- 분석 마스터플랜은 분석 과제 도출, 우선순위 평가, 이행계획 수립 순서로 수행된다.
해설
- 실행 용이성은 적용 범위 및 방식이 아닌 우선순위 고려 요소이다.
19. 다음 중 능력 성숙도 통합 모델의 4단계에 대한 설명으로 올바른 것은?
- 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스 아래 통제되는 상태
- 위와 더불어 조직을 관리하기 위한 프로세스가 존재하는 상태
- 위와 더불어 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태
- 위와 더블어 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태
해설
- 능력 성숙도 통합 모델(CMMI)
- 개념 개요
- CMMI는 조직의 프로세스 성숙도를 평가하고 개선하기 위한 프레임워크로, 5단계의 성숙도 수준을 정의합니다. 각 단계는 프로세스의 성숙도와 관리 수준을 나타냅니다.
- 초등학생도 이해하기 쉬운 설명
- CMMI는 회사가 일을 얼마나 잘하는지를 평가하는 방법입니다. 4단계에서는 숫자와 데이터를 사용해서 얼마나 잘하고 있는지 정확하게 측정할 수 있어요.
- 각 문제 항목 해설
- 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스 아래 통제되는 상태
- 이는 CMMI의 2단계인 "관리" 수준에 해당합니다. 기본적인 프로젝트 관리가 이루어지는 단계입니다.
- 위와 더불어 조직을 관리하기 위한 프로세스가 존재하는 상태
- 이는 CMMI의 3단계인 "정의됨" 수준에 해당합니다. 조직 전반에 걸쳐 표준화된 프로세스를 유지하는 단계입니다.
- 위와 더불어 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태
- 이 설명이 CMMI의 4단계인 "양적 관리" 수준에 해당합니다. 데이터 기반으로 프로세스를 관리하고 개선하는 단계입니다.
- 위와 더블어 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태
- 이는 CMMI의 5단계인 "최적화" 수준에 해당합니다. 지속적인 개선과 혁신을 중시하는 단계입니다.
- 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스 아래 통제되는 상태
- 오답 노트
- 일정이나 비용 중심: 이는 초기 관리 단계로, 정량적 측정과는 관련이 없습니다.
- 조직을 위한 프로세스 존재: 정량적 측정을 포함하지 않는 표준화된 프로세스가 강조됩니다.
- 최적화된 프로세스: 이는 최종 단계로, 정량적 측정을 넘어 지속적인 개선을 목표로 합니다.
20.
21.
22.
23.
24.
[3과목]
01. 아래의 예시를 수행하기 위해 사용해야 하는 확률분포로 올바른 것은?
두 집단의 평균을 비교할 경우 두 집단의 분산이 같은 경우와 다른 경우의 가설검정 수행 방법이 달라진다. 따라서 두 집단의 분산이 같은지 다른지를 판별하기 위한 등분산 검정을 수행하기 위한 확률분포다.
- 정규분포
- 카이제곱 분포
- T 분포
- F 분포
해설
- F 분포는 등분산 검정 및 분산분석을 위해 활용된다.
- t-분포
- 표준정규분포를 활용하여 모평균(모수)을 추정하기 위해서는 모표준편차를 사전에 알고 있어야 한다. 그러나 현실적으로 모표준편차를 모르기 때문에 t분포를 이용하여 모평균 검정 또는 두 집단의 평균이 동일한지 계산하기 위한 검정통계량으로 활용된다.
- 자유도 커질수록 t분포는 표준정규분포에 가까워 진다.
- 카이제곱 분포
- 표준정규분포를 따르는 확률변수 Z1, Z2, Z3, ..., Zn의 제곱의 합X는 자유도가 n인 카이제곱 분포를 따른다.
- 카이제곱 분포는 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다.
02. 다음 중 연관분석의 측도에 대한 설명으로 올바른 것은?
- 향상도 A -> B: A를 구매하지 않았을 때 품목 B를 구매할 확률 대비, A를 구매했을 때 품목 B의 구매 확률의 증가 비율을 의미한다.
- 신뢰도 A -> B: 두 개의 품목 A, B에 대하여 구매 발생 비율을 의미한다.
- 지지도 B -> A: 품목 A가 구매되었을 때 품목 B의 구매 확률을 의미한다.
- 향상도 A -> B: 품목 A가 구매될 때 B가 구매될 확률 대비 품목 A가 구매될 비율을 의미한다.
03. 다음 중 단순회귀분석에서 최소제곱법에 대한 설명으로 올바른 것은 무엇인가?
- 실제값과 추정값의 차이의 제곱합이 최소가 되는 회귀계수와 회귀상수를 찾는 방법
- 실제값과 추정값의 차이의 합의 제곱이 최소가 되는 회귀계수와 회귀상수를 찾는 방법
- 실제값과 추청값의 차이의 제곱합이 최소가 되는 결정계수와 F-통계량을 찾는 방법
- 실제값과 추정값의 차이의 합의 제곱이 최소가 되는 결정계수와 F-통계량을 찾는 방법
해설
- 단순회귀분석에서 최소제곱법(OLS, Ordinary Least Squares)은 주어진 데이터에 가장 잘 맞는 직선을 찾기 위해 사용되는 방법입니다. 이 방법은 실제 관측값과 모델이 예측한 값 간의 차이, 즉 잔차(residual)의 제곱합을 최소화하는 회귀계수(기울기와 절편)를 찾는 것을 목표.
04. 데이터 마이닝은 그 특성에 따라 지도학습과 비지도학습으로 나눌 수 있다. 다음에 나열된 기법 중 그 특성이 다른 것은 무엇인가?
- Expectation Maximization Algorithm
- K-Means Clusetering
- Apriori Algorithm
- Linear Regression
해설
- Expectation Maximization Algorithm (EM Algorithm)
- EM 알고리즘은 비지도 학습 알고리즘으로, 관측되지 않은 잠재 변수를 포함한 통계 모델의 매개변수를 최대 우도 추정 또는 최대 사후 확률 추정을 통해 찾는 방법입니다. 주로 클러스터링과 같은 비지도 학습 문제에 사용됩니다.
- K-Means Clustering
- K-평균 군집화는 비지도 학습 알고리즘으로, 레이블이 없는 데이터를 여러 군집으로 나누는 데 사용됩니다. 데이터 포인트를 중심점(centroid)과의 거리 기반으로 군집화하는 방법입니다.
- Apriori Algorithm
- Apriori 알고리즘은 비지도 학습 알고리즘으로, 연관 규칙 학습을 통해 데이터 내의 항목 간의 관계를 식별합니다. 주로 시장 바구니 분석과 같은 응용 분야에서 사용됩니다
- Linear Regression
05. 다음 중 분산분석의 사후검정방법이 아닌 것은 무엇인가?
- Tukey 검정
- Bonferroni 검정
- Fisher' LSD
- Shapiro 검정
해설
- 개념 개요
- 분산분석(ANOVA) 후에 사후검정(Post-hoc test)은 그룹 간의 평균 차이를 더 자세히 분석하기 위해 사용됩니다. 사후검정은 여러 그룹 간의 차이를 확인하여 통계적 유의성을 평가합니다. 주요 사후검정 방법으로는 Tukey, Bonferroni, Fisher's LSD 등이 있습니다.
- 초등학생도 이해할 수 있는 설명
- 분산분석은 여러 그룹이 있을 때 이 그룹들 간에 차이가 있는지를 알아보는 방법이에요. 만약 차이가 있다고 나오면, 사후검정을 통해 어떤 그룹들 사이에 차이가 있는지를 더 자세히 알아보는 거예요.
- 문제 항목에 대한 상세한 해설
- Tukey 검정: ANOVA 후에 모든 그룹 간의 평균 차이를 비교하는 사후검정 방법입니다.
- Bonferroni 검정: 다중 비교 시 오류를 줄이기 위해 사용되는 보수적인 사후검정 방법입니다.
- Fisher's LSD: 가장 엄격하지 않은 사후검정 방법으로, ANOVA 후에 그룹 간의 차이를 비교합니다.
- Shapiro 검정: 정규성을 검정하는 방법으로, 사후검정이 아닙니다. 이는 데이터를 분석하기 전에 데이터가 정규분포를 따르는지를 확인하는 데 사용됩니다.
06. 다음 중 의사결정나무에 대한 설명으로 잘못된 것은?
- 모델이 직관적이고 해석이 용이하나, 독립변수들 사이의 중요도 판단이 쉽지 않다는 어려움이 있다.
- 이상값에 민감하지 않다는 장점이 있으나, 과적합 발생 가능성이 높다는 문제점이 있다.
- CHAD 알고리즘과 C4.5 알고리즘은 이산형, 연속형 모두에 대하여 적용 가능하나, CART 알고리즘은 이산형 변수에만 적용 가능하다.
- 데이터에 대한 선형성, 정규성 등의 가정이 필요하지 않으나, 분류 경계선 근처 자료에 대한 오차가 크다.
해설
- 개념 개요
- 의사결정나무는 데이터를 분류하거나 회귀 분석을 수행하는 데 사용되는 머신러닝 알고리즘입니다. 이 알고리즘은 데이터를 여러 조건에 따라 분할하여 예측을 수행합니다. 의사결정나무는 직관적이고 해석이 용이하지만, 과적합과 같은 문제점도 있습니다.
- 초등학생도 이해할 수 있는 설명
- 의사결정나무는 질문을 통해 결정을 내리는 방법이에요. 예를 들어, "오늘 우산을 가져갈까?"라는 질문에 대해 나무처럼 여러 가지 질문을 하면서 답을 찾는 거예요. 이 방법은 이해하기 쉽지만, 너무 많은 질문을 하면 헷갈릴 수 있어요.
- 문제 항목에 대한 상세한 해설
- 모델이 직관적이고 해석이 용이하나, 독립변수들 사이의 중요도 판단이 쉽지 않다는 어려움이 있다: 의사결정나무는 직관적이고 해석하기 쉬운 모델입니다. 그러나 독립변수들 간의 중요도를 판단하는 데는 한계가 있을 수 있습니다.
- 이상값에 민감하지 않다는 장점이 있으나, 과적합 발생 가능성이 높다는 문제점이 있다: 의사결정나무는 이상값에 비교적 민감하지 않지만, 과적합의 위험이 큽니다
- CHAD 알고리즘과 C4.5 알고리즘은 이산형, 연속형 모두에 대하여 적용 가능하나, CART 알고리즘은 이산형 변수에만 적용 가능하다: 이 설명은 잘못되었습니다. CART 알고리즘은 이산형과 연속형 변수 모두에 적용 가능합니다
- 데이터에 대한 선형성, 정규성 등의 가정이 필요하지 않으나, 분류 경계선 근처 자료에 대한 오차가 크다: 의사결정나무는 데이터의 선형성이나 정규성을 가정하지 않습니다. 그러나 분류 경계선 근처에서는 오차가 클 수 있습니다
07. 다음 중 분산팽창계수(VIF)에 대한 설명으로 올바른 것은 무엇인가?
- 분산분석의 귀무가설이 기각될 때 어느 집단이 이질적인지 파악하기 위해 사용되는 지표
- 회귀분석에서 독립변수 간의 상호선형 관계가 존재하는지 파악하기 위해 사용되는 지표
- 군집분석을 수행한 뒤 데이터들이 얼마나 잘 군집화되었는지 파악하기 위해 사용되는 지표
- 주성분분석을 수행한 뒤 각각의 주성분 사이에 상관성이 존재하는지 파악하기 위해 사용되는 지표
해설
- 개념 개요
- 분산팽창계수(VIF)는 회귀분석에서 독립변수 간의 다중공선성을 진단하는 지표입니다. VIF 값이 높으면 독립변수들 사이에 강한 상관관계가 있다는 것을 의미하며, 일반적으로 VIF 값이 10을 넘으면 다중공선성이 있다고 판단합니다.
08. 다음 중 R에서 apriori 알고리즘을 통한 연관분석을 수행한 뒤 연관 규칙에 대한 결과를 확인하기 위한 함수로 올바른 것은?
- inspect
- aov
- summary
- arule
해설
- 개념 개요
- Apriori 알고리즘은 연관 분석을 수행하는 데 사용되는 알고리즘으로, 데이터에서 자주 발생하는 항목 집합과 이들 간의 연관 규칙을 찾습니다. R에서는 `apriori()` 함수를 사용하여 연관 분석을 수행하며, 결과를 확인하기 위해 `inspect()` 함수를 사용합니다.
09. 모델 구축 시 데이터 분할을 통해 각각의 목적을 갖고 데이터를 활용한다. 다음 중 모델의 과적합에 대한 미세조정을 위해 활용되는 데이터는 무엇인가?
- 훈련용 데이터
- 검정용 데이터
- 평가용 데이터
- 보완용 데이터
해설
- 개념 개요
- 과적합은 모델이 학습 데이터에 너무 잘 맞춰져서 새로운 데이터에 일반화하는 능력이 떨어지는 현상을 말합니다. 이를 방지하기 위해 검정용 데이터를 사용하여 모델의 성능을 평가하고 조정합니다.
- 초등학생도 이해하기 쉬운 설명
- 모델이 공부를 너무 열심히 해서 시험 문제만 잘 풀고, 새로운 문제는 잘 못 푸는 상황을 막기 위해, 시험 전에 연습 문제를 풀어보는 것과 비슷합니다. 이 연습 문제가 검정용 데이터입니다.
- 각 문제 항목 해설
- 훈련용 데이터
- 모델을 학습시키는 데 사용되는 데이터입니다. 과적합을 직접적으로 조정하는 데 사용되지는 않습니다.
- 검정용 데이터
- 모델의 과적합 여부를 판단하고 조정하기 위해 사용됩니다. 학습 과정 중에 모델의 성능을 평가하는 데 중요한 역할을 합니다.
- 평가용 데이터
- 최종적으로 모델의 성능을 평가하기 위해 사용됩니다. 검정용 데이터와는 다르게, 학습 과정 중에는 사용되지 않습니다.
- 보완용 데이터
- 일반적으로 사용되는 용어가 아닙니다.
- 훈련용 데이터
- 오답 노트
- 훈련용 데이터와 평가용 데이터는 각각 학습과 최종 평가에 사용되며, 과적합 조정에는 직접적으로 사용되지 않습니다.
10. 다음 중 다차원 척도법에 대한 설명으로 잘못된 것은?
- 데이터를 저차원 공간에 위치시켜 데이터 간의 유사성을 시각화할 수 있는 기법이다.
- STRESS 값을 활용하여 적합도 판정을 할 수 있으며 그 값이 1에 가까울수록 적합이 매우 잘 되었다고 한다.
- 데이터가 서열척도인 경우에는 비계량적 방법을 활용해야 한다.
- 데이터가 비율척도, 구간척도인 경우에는 유클리디안 거리 행렬을 활용할 수 있다.
해설
- 개념 개요
- 다차원 척도법(MDS)은 데이터를 저차원 공간에 배치하여 데이터 간의 유사성을 시각적으로 표현하는 기법입니다. 이를 통해 데이터의 구조를 이해하고 분석할 수 있습니다.
- 초등학생도 이해하기 쉬운 설명
- 다차원 척도법은 친구들 사이의 거리를 그림으로 그려서 누가 누구랑 가까운지 보여주는 방법이에요. 이렇게 하면 친구들 사이의 관계를 쉽게 알 수 있어요.
- 각 문제 항목 해설
- 데이터를 저차원 공간에 위치시켜 데이터 간의 유사성을 시각화할 수 있는 기법이다.
- 다차원 척도법은 데이터를 2차원 또는 3차원 공간에 배치하여 유사성을 시각화합니다.
- STRESS 값을 활용하여 적합도 판정을 할 수 있으며 그 값이 1에 가까울수록 적합이 매우 잘 되었다고 한다.
- STRESS 값은 모델의 부적합도를 나타내며, 값이 작을수록(0에 가까울수록) 모델이 잘 적합된 것입니다.
- 데이터가 서열척도인 경우에는 비계량적 방법을 활용해야 한다.
- 서열척도의 경우 비계량적 MDS를 사용하여 순서 정보를 보존합니다.
- 데이터가 비율척도, 구간척도인 경우에는 유클리디안 거리 행렬을 활용할 수 있다.
- 비율척도나 구간척도의 경우 계량적 MDS를 사용하며, 유클리디안 거리 행렬을 활용합니다.
- 데이터를 저차원 공간에 위치시켜 데이터 간의 유사성을 시각화할 수 있는 기법이다.
- 오답 노트
- STRESS 값: STRESS 값이 1에 가까울수록 적합도가 높은 것이 아니라, 0에 가까울수록 적합도가 높습니다. 이는 MDS에서 모델의 적합도를 평가할 때 중요한 요소입니다.
11. 다음 중 텍스트 마이닝에 대한 설명으로 잘못된 것은?
- 분석 대상이 텍스트라는 비정형 데이터이므로 비정형 데이터 마이닝으로 분류된다.
- 한국어의 경우 조사를 제거하거나 시제를 현재형으로 돌리는 등 단어의 어원을 찾는 작업을 토크나이저라 한다.
- 텍스트 마이닝의 대표적인 활용방안으로는 문서의 요약, 분류, 군집, 추출 등이 있다.
- 감성분석은 일종의 텍스트 마이닝으로 '오피니언 마이닝'으로도 불린다.
해설
- 개념 개요
- 텍스트 마이닝은 비정형 데이터인 텍스트에서 유용한 정보를 추출하는 기법입니다. 주로 자연어 처리 기법을 사용하여 텍스트를 분석하고, 문서 요약, 분류, 군집, 감성 분석 등의 다양한 작업에 활용됩니다.
- 초등학생도 이해하기 쉬운 설명
- 텍스트 마이닝은 컴퓨터가 책이나 글을 읽고 중요한 정보를 찾아내는 방법이에요. 예를 들어, 글에서 어떤 단어가 많이 나오는지 알아보거나, 글의 내용을 요약하는 데 사용할 수 있어요.
- 각 문제 항목 해설
- 분석 대상이 텍스트라는 비정형 데이터이므로 비정형 데이터 마이닝으로 분류된다.
- 맞는 설명입니다. 텍스트 마이닝은 비정형 데이터인 텍스트를 분석합니다.
- 한국어의 경우 조사를 제거하거나 시제를 현재형으로 돌리는 등 단어의 어원을 찾는 작업을 토크나이저라 한다.
- 잘못된 설명입니다. 이러한 작업은 일반적으로 형태소 분석이나 어간 추출이라고 하며, 토크나이저는 텍스트를 작은 단위로 나누는 작업입니다.
- 분석 대상이 텍스트라는 비정형 데이터이므로 비정형 데이터 마이닝으로 분류된다.
12. 다음 중 시계열 모형에 대한 설명으로 잘못된 것은?
- 자기회귀모형은 특정 시점의 자료는 그 이전 n개의 데이터에 의해 설명될 수 있다는 전제하에 모형을 구축하는 것이다.
- 이동평균모형은 이전 시점들의 백색 잡음의 선형결합으로 표현될 수 있는 모형을 의미한다.
- 자기상관함수 또는 부분자기상관함수를 활용해 시차 값 n을 판별할 수 있다.
- 자기회귀누적이동평균모형 ARIMA(p, d, q)에서 p는 시계열 자료를 정상화하기 위해 필요한 차분 횟수를 의미한다.
해설
- ARIMA(p, d, q) 모델은 시계열 데이터를 분석하고 예측하는 데 사용되는 통계적 모델입니다. 이 모델은 다음과 같은 세 가지 주요 구성 요소로 이루어져 있습니다:
- 자기회귀(AR, Autoregressive) 부분: 과거의 값들이 현재 값에 미치는 영향을 모델링합니다. 여기서 p 는 과거 관측값의 수를 나타냅니다.
- 차분(I, Integrated) 부분: 시계열 데이터를 정상화하기 위해 차분을 사용합니다. d 는 차분의 횟수를 나타내며, 비정상성을 제거하는 데 사용됩니다
- 이동 평균(MA, Moving Average) 부분: 과거의 예측 오차가 현재 값에 미치는 영향을 모델링합니다. q 는 과거 오차항의 수를 나타냅니다
13. 다음 중 회귀분석의 결과를 해석하는 방법을 잘못 설명한 것은?
- p-value 값을 확인하고 모형의 유의성을 판단한다.
- 각 독립변수의 회귀계수를 확인하고 유의한 변수를 판단한다.
- 다중회귀분석의 경우 다중공선성의 여부를 판단해야 한다.
- 결정계수를 확인하고 모형의 설명력을 판단한다.
해설
- 개념 개요
- 회귀분석은 종속변수와 하나 이상의 독립변수 간의 관계를 모델링하는 통계 기법입니다. 이를 통해 변수 간의 관계를 이해하고 예측할 수 있습니다.
- 초등학생도 이해하기 쉬운 설명
- 회귀분석은 마치 여러 가지 요인들이 결과에 어떻게 영향을 미치는지를 알아보는 방법이에요. 예를 들어, 공부 시간과 성적이 어떻게 관련이 있는지를 알아보는 것과 비슷해요.
- 각 문제 항목 해설
- p-value 값을 확인하고 모형의 유의성을 판단한다.
- P-value는 각 독립변수가 결과에 미치는 영향이 의미 있는지를 확인하는 데 사용됩니다. 작을수록 중요합니다.
- 각 독립변수의 회귀계수를 확인하고 유의한 변수를 판단한다.
- 잘못된 설명입니다. 회귀계수는 변수의 영향력을 나타내지만, 유의성 여부는 반드시 p-value를 통해 판단해야 합니다.
- p-value 값을 확인하고 모형의 유의성을 판단한다.
14. 서열척도인 두 변수 값의 관계를 나타낸 값으로 한 변수를 단조 증가 함수로 바꿔 다른 변수를 표현할 수 있는 상관계수는 무엇인가?
- 자카드 계수
- 피어슨 상관계수
- 스피어만 상관계수
- 단순 일치 계수
해설
- 개념 개요
- 스피어만 상관계수는 두 변수 간의 순위 상관관계를 측정하는 비모수적 통계 지표입니다. 이는 데이터의 순위를 기반으로 하여 두 변수 간의 단조 관계를 평가합니다. 스피어만 상관계수는 피어슨 상관계수와 달리 데이터의 분포에 대한 가정이 필요 없으며, 비선형적인 관계도 평가할 수 있습니다.
- 초등학생도 이해하기 쉬운 설명
- 스피어만 상관계수는 친구들 사이에서 누가 더 키가 큰지, 누가 더 달리기를 잘하는지를 순서대로 비교하는 방법이에요. 키와 달리기 실력 사이에 어떤 관계가 있는지 알아보는 거죠. 이렇게 순서를 비교하면 숫자가 꼭 정확하지 않아도 관계를 알 수 있어요.
- 각 문제 항목 해설
- 자카드 계수
- 두 집합 간의 유사성을 측정하는 지표로, 주로 집합의 교집합과 합집합을 비교하여 유사성을 평가합니다. 서열척도와는 관련이 없습니다.
- 피어슨 상관계수
- 두 변수 간의 선형 상관관계를 측정하는 지표로, 연속형 데이터에 적합합니다. 서열척도 데이터에는 적절하지 않습니다.
- 스피어만 상관계수
- 서열척도 데이터 간의 순위 상관관계를 측정하는 비모수적 지표입니다. 한 변수를 단조 증가 함수로 변환하여 다른 변수를 표현할 수 있습니다.
- 단순 일치 계수
- 두 변수 간의 일치 정도를 측정하는 지표로, 주로 범주형 데이터에 사용됩니다. 서열척도와는 관련이 없습니다.
- 자카드 계수
15. 다음 중 보기와 같은 상황이 주어졌을 때 수행해야 할 가설검정의 종류로 올바른 것은?
한 백화점에서 A 상품, B 상품, C 상품 모두를 구매한 고객들을 대상으로 어떤 상품이 더 높은 만족도를 보였는지 각 제품에 대하여 선호도 점수를 조사했다. 단순히 결과를 비교하기에 앞서 각 상품에 VVIP 고객, VIP 고객, 일반 고객을 나누어 점수를 비교해야 할 것으로 판단된다.
- 이표본 T 검정
- 카이제곱 검정
- 일원분산분석
- 이원분산분석
해설
- 개념 개요
- 이원분산분석은 두 개 이상의 범주형 독립변수가 종속변수에 미치는 영향을 분석하는 통계적 방법입니다. 이는 각 독립변수의 주효과뿐만 아니라, 두 독립변수 간의 상호작용 효과도 평가할 수 있습니다.
- 초등학생도 이해하기 쉬운 설명
- 이원분산분석은 마치 여러 가지 맛의 아이스크림을 서로 다른 크기의 컵에 담아 맛을 비교하는 것과 같아요. 여기서 맛과 컵 크기가 각각 독립변수이고, 맛의 점수가 종속변수예요. 이 분석을 통해 어떤 맛이 더 인기 있는지, 그리고 컵 크기에 따라 그 인기가 어떻게 달라지는지를 알 수 있어요.
- 각 문제 항목 해설
- 이표본 T 검정
- 두 그룹 간의 평균 차이를 비교하는 데 사용됩니다. 세 개 이상의 그룹을 비교할 때는 적절하지 않습니다.
- 카이제곱 검정
- 범주형 데이터 간의 독립성이나 적합성을 검정하는 데 사용됩니다. 평균 차이를 비교하는 분산분석과는 다릅니다.
- 일원분산분석
- 하나의 독립변수에 대한 여러 그룹 간 평균 차이를 분석합니다. 두 개 이상의 독립변수를 고려해야 하는 경우에는 적절하지 않습니다.
- 이원분산분석
- 두 개 이상의 범주형 독립변수가 종속변수에 미치는 영향을 분석합니다. 주어진 상황에서 VVIP, VIP, 일반 고객이라는 두 가지 범주(고객 유형 및 상품)를 고려하므로 이원분산분석이 적합합니다.
- 이표본 T 검정
- 오답 노트
- 이표본 T 검정과 카이제곱 검정은 각각 두 그룹 간의 평균 차이나 범주형 데이터의 관계를 분석하는 데 사용되며, 다중 그룹 평균 비교에는 적합하지 않습니다.
- 일원분산분석은 하나의 독립변수를 고려하므로, 두 개 이상의 범주형 변수를 고려해야 하는 상황에는 적절하지 않습니다.
16. 다음 중 변수의 표준화와 함께 변수의 상관성까지 고려한 통계적 거리는?
- 체비셰프 거리
- 마할라노비스 거리
- 민코프스키 거리
- 표준화 거리
해설
- 개념 개요
- 마할라노비스 거리는 다변량 공간에서 두 점 사이의 거리를 측정하는 방법으로, 변수 간의 상관성을 고려하여 거리를 계산합니다. 이는 데이터가 중심점(평균)에서 얼마나 떨어져 있는지를 측정하며, 특히 이상치 탐지에 유용합니다.
- 초등학생도 이해하기 쉬운 설명
- 마할라노비스 거리는 마치 여러 방향으로 걸어갈 수 있는 길에서, 각 길이 서로 얼마나 관련이 있는지를 고려해서 가장 가까운 길을 찾는 것과 같아요. 이렇게 하면 길이 서로 겹치는 경우에도 정확하게 거리를 잴 수 있어요.
- 각 항목 해설
- 체비셰프 거리
- 각 차원에서의 최대 차이를 사용하는 거리로, 상관성을 고려하지 않습니다.
- 마할라노비스 거리
- 변수의 표준화와 상관성을 모두 고려하여 거리를 측정합니다. 변수 간의 상관 관계를 반영하는 점에서 다른 거리와 차별됩니다.
- 민코프스키 거리
- 일반화된 거리 측정 방법으로, 특정한 형태로는 유클리드 거리나 맨해튼 거리가 될 수 있습니다. 상관성을 고려하지 않습니다.
- 표준화 거리
- 단순히 변수를 표준화하여 사용하는 거리로, 상관성을 직접적으로 고려하지 않습니다.
- 체비셰프 거리
'[자격증] > ADsP 문제 풀이' 카테고리의 다른 글
[ADsP 문제 풀이] 실전 문제 오답 정리 (0) | 2024.11.01 |
---|---|
[ADsP 문제풀이] 스파르타코딩클럽 오답 정리 (0) | 2024.11.01 |
[3과목 예상문제] ADsP 오답 풀이 (3) | 2024.10.31 |
[3과목 기출문제] ADsP 오답 풀이 (0) | 2024.10.31 |
[39회 기출 변형 문제] (0) | 2024.10.27 |