본문 바로가기
[자격증]/ADsP 문제 풀이

[오답 정리] ADsP

by 에디터 윤슬 2024. 11. 2.

목차

    [1과목]

    01. 데이터베이스 설계 절차로 적절한 것은?

    1. 요구사항 분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계

    해설

    • 1. 요구 사항 분석
      • 목적: 데이터베이스가 충족해야 할 사용자 요구 사항을 수집하고 분석합니다.
      • 활동: 사용자와의 인터뷰, 설문조사 등을 통해 시스템의 목표와 필요한 기능을 정의하고, 업무 규칙을 파악합니다.
      2. 개념적 설계
      • 목적: 요구 사항을 바탕으로 데이터와 그 관계를 추상화하여 개념적 데이터 모델을 만듭니다.
      • 활동: ER 다이어그램을 사용하여 엔티티, 속성, 관계를 식별하고, 데이터 무결성을 검토합니다.
      3. 논리적 설계
      • 목적: 개념적 설계를 실제 DBMS에 맞게 변환하여 논리적 데이터 모델을 만듭니다.
      • 활동: 테이블 구조를 설계하고, 정규화를 통해 중복 및 이상 현상을 제거하며, 인덱스와 트랜잭션, 제약 조건 등을 정의합니다.
      4. 물리적 설계
      • 목적: 논리적 구조를 기반으로 물리적 저장 구조를 설계하여 효율적인 데이터베이스 성능을 지원합니다.
      • 활동: 저장 장치의 특성을 고려하여 인덱스 구조, 접근 경로 등을 설계하며, 반응 시간과 저장 공간 활용도를 최적화합니다.
      5. 구현
      • 목적: 설계된 데이터베이스 구조를 실제 DBMS에서 구현하여 운영 가능한 상태로 만듭니다.
      • 활동: SQL 명령문을 사용하여 테이블과 인덱스를 생성하고 데이터를 입력하며, 응용 프로그램에서 사용할 트랜잭션을 작성합니다

    02. 데이터 웨어하우스에 대한 설명으로 가장 부적절한 것은?

    1. 데이터 웨어하우스에서 관리하는 데이터는 시간의 흐름에 따라 변화하는 값을 저장한다.
    2. ETL은 주기적으로 운영 시스템에서 데이터를 추출, 가공하여 데이터 웨어하우스에 적재한다.
    3. 데이터 웨어하우스는 데이터를 일관된 형식으로 관리한다.
    4. 전사적 차원에서 접근하기보다는 재무, 생산, 운영과 같이 특정 업무 분야에 초점을 맞춰 구축한다.

    해설

    • ETL(Extract, Transform, Load): 추출, 변환, 로드
    • 데이터 웨어하우스: 비즈니스 인텔리전스와 분석을 위해 설계된 데이터 관리 시스템. 대량의 데이터를 수집하고 저장하여, 이를 분석 및 쿼리에 사용할 수 있도록 한다. 전사적 차원에서 접근한다.

    데이터 웨어하우스의 주요 특징

    • 중앙 저장소: 데이터 웨어하우스는 여러 소스로부터 데이터를 통합하여 중앙 저장소에 보관합니다. 이를 통해 조직 내 모든 데이터가 한 곳에서 접근 가능해지며, 부서 간 일관된 데이터 분석이 가능합니다
    • OLAP 지원: 데이터 웨어하우스는 온라인 분석 처리(OLAP)를 지원하여 대량의 역사적 데이터를 빠르고 복잡한 쿼리를 통해 분석할 수 있습니다. 이는 운영 데이터베이스의 OLTP(온라인 트랜잭션 처리)와 대비됩니다.
    • 데이터 일관성 및 품질: 다양한 소스에서 수집된 데이터를 표준화된 형식으로 변환하여 데이터의 일관성과 품질을 유지합니다. 이는 비즈니스 부서 간에 동일한 데이터를 사용하여 일관된 보고서를 생성할 수 있게 합니다.
    • 역사적 데이터 저장: 과거의 데이터를 저장하고 분석할 수 있어, 시간에 따른 트렌드와 패턴을 파악하는 데 유용합니다. 이는 기업이 전략적 결정을 내리는 데 중요한 인사이트를 제공합니다.

    데이터 웨어하우스의 이점

    • 비즈니스 인사이트 강화: 데이터를 통합하고 분석함으로써 비즈니스 인사이트를 강화하고, 더 나은 의사 결정을 지원합니다.
    • 데이터 접근성 향상: 사용자가 여러 시스템에 로그인할 필요 없이 한 인터페이스에서 모든 데이터를 쉽게 접근할 수 있습니다.
    • 자동화  효율성: 데이터 추출  전송을 자동화하여 정보 수집과 시각화에 필요한 시간을 줄이고,  빠르게 인사이트를 도출할  있습니다

    03. 다음 중 데이터 모델링에 대한 설명으로 올바른 것은?

    1. 데이터 포인트 간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스이다.
    2. 중복된 데이터를 최소화하여 데이터베이스를 효율적으로 관리하기 위한 일련의 프로세스이다.
    3. 모델 구축을 위해 입력 데이터 및 출력 데이터를 정의하는 작업을 의미한다.
    4. 구축된 모델에 대해 정확도 향상을 위해 보와나 작업을 수행하기 위한 작업을 의미한다.

    해설

    • 개념 개요
      • 데이터 모델링은 데이터를 구조화하고 그 관계를 이해하기 위해 사용하는 과정입니다. 이는 데이터를 시각적으로 표현하여 데이터 간의 연결과 관계를 명확히 하는 데 도움을 줍니다.

    04. 다음은 데이터베이스에 작업을 수행하기 위한 명령어를 나열한 것이다. 다음 중 나머지와 그 성격이 다른 것은

    1. SELECT
    2. CREATE
    3. UPDATE
    4. DELETE

    해설

    • 개념 개요
      • 데이터베이스 명령어는 주로 데이터 조작 언어(DML)와 데이터 정의 언어(DDL)로 나뉩니다. DML은 데이터의 조회, 삽입, 갱신, 삭제를 다루고, DDL은 데이터베이스 구조를 정의하거나 변경하는 데 사용됩니다.

    05.

    06.

    07.

     

     

     

     

    [2과목]

    01. 다음 중 데이터 분석 방법론의 구성 요소가 아닌 것은 무엇인가?

    1. 상세한 절차
    2. 방법
    3. 도구와 기법
    4. 분석 모델

    해설

    02. 다음 중 CRISP-DM 방법론의 모델링 단계에서 수행하는 태스크가 아닌 것은?

    1. 모델 테스트 계획 설계
    2. 모델링 기법 선택
    3. 모델 평가
    4. 모델 적용성 평가

    해설

    03. 다음 중 분석 준비도의 구성 요소 중 하나인 분석 업무 파악을 진단하기 위한 항목이 아닌 것은?

    1. 예측 분석 업무
    2. 최적화 분석 업무
    3. 업무별 적합한 분석 기법 사용
    4. 분석 업무의 정기적 개선

    해설

    업무 파악 - 발생한 사실 분석 업무
    - 예측 분석 업무
    - 시뮬레이션 분석 업무
    - 최적화 분석 업무
    - 분석 업무 정기적 개선
    분석 데이터 - 분석 업무를 위한 데이터
    - 충분성/신뢰성/적시성
    - 비구조적 데이터 관리
    - 외부데이터 활용 체계
    - 기준 데이터 관리(MDM)
    인력 및 조직 - 분석전문가 직무 존재
    - 분석전문가 교육 훈련프로그램
    - 관리자 기본 분석 능력
    - 전사총괄조직
    - 경영진 분석 업무 이해
    분석 기법 - 업무별 적합한 분석 기법 사용
    - 분석 업무 도입 방법론
    - 분석 기법 라이브러리
    - 분석 기법 효과성 평가
    - 분석 기법 정기적 개선
    문화 - 사실에 근거한 의사결정
    - 관리자의 데이터 중시
    - 회의 등에서 데이터 활용
    - 경영진 직관보다 데이터 활용
    - 데이터 공유 및 협업 문화
    IT 인프라 - 운영 시스템 데이터 통합
    - EAI, ETL 등 데이터 유통체계
    - 분석 전용 서버 및 스토리지
    - 빅데이터/통계/비주얼 분석환경

     

    04. 다음 중 분석 성숙도가 활용 단계에 머물러 있는 기업이 현재 수행하고 있는 업무로 적절한 것은 무엇인가?

    1. 비즈니스 부문에서 미래 결과를 예측
    2. 비즈니스 부문에서 실적 분석을 위한 통계 기법 사용
    3. IT 부문에서 빅데이터 분석을 수행
    4. IT 부문에서 분석 전용 서버를 구축

    해설

    비즈니스 부문 1단계. 도입 2단계. 활용 3단계. 확산 4단계. 최적화
    분석 시작, 환경과 시스템 구축 분석 결과를 업무에 적용 전사 차원에서 분석 관리, 공유 분석을 진화시켜 혁신 및 성과 향상에 기여
    - 실적 분석 및 통계
    - 정기 보고 수행
    - 운영 데이터 기반
    - 미래결과 예측
    - 시뮬레이션
    - 운영 데이터 기반
    - 전사성과 실시간 분석
    - 프로세스 혁신 3.0
    - 분석규칙 관리
    - 이벤트 관리
    - 외부 환경 분석 활용
    - 최적화 업무 적용
    - 실시간 분석
    - 비즈니스 모델 진화

     

    조직, 역량 부문 1단계. 도입 2단계. 활용 3단계. 확산 4단계. 최적화
    분석 시작, 환경과 시스템 구축 분석 결과를 업무에 적용 전사 차원에서 분석 관리, 공유 분석을 진화시켜 혁신 및 성과 향상에 기여
    - 일부 부서에서 수행
    - 담당자 역량에 의존
    - 전문담당부서 수행
    - 분석 기법 도입
    - 관리자가 분석 수행
    - 전사 모든 부서 수행
    - 분석 COE 운영
    - 데이터 사이언티스트 확보
    - 데이터 사이언스 그룹
    - 경영진 분석 활용
    - 전략 연계
    IT 부문 1단계. 도입 2단계. 활용 3단계. 확산 4단계. 최적화
    분석 시작, 환경과 시스템 구축 분석 결과를 업무에 적용 전사 차원에서 분석 관리, 공유 분석을 진화시켜 혁신 및 성과 향상에 기여
    - 데이터 웨어하우스
    - 데이터 마트
    - ETL/EAI
    - OLAP
    - 실시간 대시보드
    - 통계분석 환경
    - 빅데이터 관리 환경
    - 시뮬레이션, 최적화
    - 비주얼 분석
    - 분석 전용 서버
    - 분석 협업환경
    - 분석 Sandbox
    - 프로세스 내재화
    - 빅데이터 분석

     

    05. 데이터 분석의 지속적인 적용 및 확산을 위한 분석 거버넌스 체계의 구성 요소가 아닌 것은 무엇인가?

    1. 분석 관련 시스템
    2. 데이터
    3. 분석 과제 기획
    4. 분석으로 얻는 가치

    해설

    06. 마스터플랜 수립 시 적용 범위 및 방식의 고려사항이 아닌 것은?

    1. 투입 비용 수준
    2. 업무 내재화 적용 수준
    3. 분석 데이터 적용 수준
    4. 기술 적용 수준

    해설

    07. 다음 중 시스템 엔지니어링, 프로젝트 관리, 인수 및 서비스 등을 포함한 광범위한 분야를 포괄하여 개인 또는 조직의 프로세스별 수준을 5가지 단계로 나타낸 소프트웨어와 시스템 공학의 역량 성숙도를 평가하는 모델은 무엇인가?

    1. CMM
    2. CMMI
    3. SPICE
    4. ISO-9000

    해설

    • CMMI(Capability Maturity Model Integration)은 조직의 프로세스 개선을 지원하기 위한 모델로, 소프트웨어 개발, 시스템 엔지니어링, 프로젝트 관리 등 다양한 분야에 적용

    08. 데이터 거버넌스는 크게 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동의 4개 단계로 나눌 수 있다. 다음 중 데이터 저장소 관리에서 수행하기에 적절한 업무는 무엇인가?

    1. 데이터 생명주기 관리 방안
    2. 모니터링
    3. 사전 영향 평가
    4. 데이터 사전 구축

    해설

    • 1 - 데이터 관리 체계
    • 2 - 표준화 활동
    • 3 - 데이터 저장소 관리
    • 4 - 데이터 표준화

    09. 기업의 데이터 분석 도입 수준을 명확하게 파악하기 위해 사용하는 분석 준비도의 구성 요소로 가장 적절하지 않은 것은?

    1. 분석 자원
    2. 분석 인프라
    3. 분석 기법
    4. 분석 인력

    해설

    11. 데이터 거버넌스 체계의 구성 요소가 아닌 것은?

    1. 원칙
    2. 조직
    3. 인력
    4. 프로세스

    해설

    • 데이터 거버넌스 체계의 구성 요소는 '원칙' '조직' '프로세스' 3가지이다.

    12. 하향식 접근법의 타당성 검토 단계에 대한 설명으로 가장 부적절한 것은?

    1. 탐색한 여러 해결 방안 중 가장 효율적인 방안을 찾기 위한 단계다.
    2. 경제적 타당성에서 ROI 관점에서 접근한다.
    3. 기술적 타당성에서는 데이터 존재 여부 및 분석 역량을 파악한다.
    4. 분석 역량과 분석 기법, 시스템 등을 고려하여 해결 방안을 모색한다.

    해설

    • 문제 탐색 단계
      • 비즈니스 모델 탐색 기법
      • 분석 기회 발굴 및 범위 확장
      • 외부 참조 모델 기반 문제 탐색
      • 분석 유스케이스
    • 문제 정의 단계
      • 식별된 비즈니스 문제를 데이터 문제로 변환하여 과제를 정의
    • 해결 방안 탐색 단계
      • 과제 정의 후 어떻게 해결할 것인지 방안을 탐색(분석 기법, 시스템 등)
    • 타당성 검토 단계
      • 경제적 타당성, 기술적 타당성 등을 검토

    13. 다음 중 분석 과제를 관리하기 위한 주요 영역이 아닌 것은 무엇인가?

    1. 데이터 복잡도
    2. 데이터 분석 속도
    3. 데이터 양
    4. 데이터의 신뢰도

    해설

    • 분석 과제를 관리하기 위한 주요 5가지 영역으로는 데이터 복잡도, 분석 속도, 분석 복잡도, 데이터 양, 정확도와 정밀도 5가지가 있다.
    • 데이터의 양: 양이 방대할 경우 하둡이나 클라우드 같은 분석환경을 활용하는 것이 유리
    • 데이터 복잡도: 텍스트, 오디오, 비디오 등 다양한 비정형 데이터를 분석할 때 초기 데이터의 확보와 통합뿐 아니라 해당 데이터에 잘 적용될 수 있는 모델을 고려
    • 분석의 속도: 실시간 - 일주일 - 한 달 등 프로젝트에 따라 필요 기한이 짧기도 하고 길기도 하다. 그에 맞춰 수행해야 한다.
    • 분석 복잡도: 분석 모델의 정확도와 복잡도는 트레이드오프 관계. 복잡도가 올라갈수록 정확도가 올라간다. 모델의 정확도가 높으면서 해석이 편리한 최적의 모델을 탐색해야 한다.
    • 정확도 & 정밀도: 정확도는 모델과 실제 값 간의 차이가 적음을 의미. 정밀도는 반복적으로 모델을 사용했을 때 모델 값들의 편차 수준

    14. 정보시스템을 전략적으로 활용하기 위해 기업의 내부 및 외부 환경을 분석하고 기업의 문제 또는 기회를 발견하고 사용자의 요구사항을 분석하는 등 중장기 마스터플랜을 수립하는 과정은 무엇인가?

    1. ISP
    2. MSA
    3. SQL
    4. ICT

    해설

    • ISP(Information Strategy Planning): 조직의 목표를 지원하기 위해 정보 기술(IT)과 시스템을 효과적으로 활용하는 전략을 수립하는 과정

    15. 다음 중 분석 방법론을 구선하는 요소 중 산출물에 대한 예시와 그 설명으로 부적절한 것은 무엇인가?

    1. WBS: 업무 분업 구조로 프로젝트를 작은 단위의 업무로 나누어 수행자 및 수행 기간을 명시한 문서다.
    2. ERD: 프로젝트를 효과적으로 관리하기 위해 여러 프로그램끼리의 연결 관계를 그린 관계 다이어그램이다.
    3. 프로그램 목록: 프로젝트를 수행하면서 산출되는 작은 단위부터 큰 단위까지 모든 프로그램을 나열한 목록이다.
    4. 데이터 명세서: 데이터를 관리하기 위한 문서로 변수명, 속성, 목적 및 활용 방안 등을 포함할 수 있다.

    16. 다음 중 분석 기획 고려사항에 대한 설명으로 가장 관련이 적은 것은?

    1. 분석의 재료가 되는 사용 가능한 데이터의 존재 여부를 반드시 고려해야 한다.
    2. 기존 실패 사례 등 유스케이스를 확보하여 과거의 전례를 밟지 않도록 한다.
    3. 분석을 수행하는 데 있어 발생 가능한 장애요소에 대한 사전계획을 수립한다.
    4. 확보한 데이터들을 어떻게 분석할 수 있을지 분석 기법과 분석의 목적을 설정한다.

    해설

    • 분석 기획 시 3가지 주요 고려사항으로는
      1. 가용 데이터의 존재 여부
      2. 유스케이스 탐색
      3. 장애요소에 대한 사전계획 수립
    • 오답 노트
      • 4번은 분석 기법과 목적 설정이 중요하지만, 이는 데이터 확보 후에 이루어지는 부분으로, 다른 항목들에 비해 초기 단계에서 직접적으로 고려해야 할 사항은 아닙니다.

    17. 다음 중 과제의 우선순위를 결정할 때 고려해야 하는 요소가 아닌 것은?

    1. 전략적 중요도
    2. 비즈니스 성과 및 ROI
    3. 기술 적용 수준
    4. 분석 과제의 실행 용이성

    18. 다음 중 분석 마스터플랜에 대한 설명으로 가장 부적절한 것은 무엇인가?

    1. 탐색한 문제에 대한 해결 방안들을 총체적인 관점에서 적용 우선순위를 설정하기 위함이다.
    2. 우선순위 결정을 위해서는 전략적 중요도, ROI 관점 등의 요소를 고려한다.
    3. 적용 범위 및 방식을 고려하기 위해 실행 용이성과 기술 적용 수준의 요소를 고려한다.
    4. 분석 마스터플랜은 분석 과제 도출, 우선순위 평가, 이행계획 수립 순서로 수행된다.

    해설

    • 실행 용이성은 적용 범위 및 방식이 아닌 우선순위 고려 요소이다.

    19. 다음 중 능력 성숙도 통합 모델의 4단계에 대한 설명으로 올바른 것은?

    1. 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스 아래 통제되는 상태
    2. 위와 더불어 조직을 관리하기 위한 프로세스가 존재하는 상태
    3. 위와 더불어 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태
    4. 위와 더블어 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태

    해설

    • 능력 성숙도 통합 모델(CMMI)
    • 개념 개요
      • CMMI는 조직의 프로세스 성숙도를 평가하고 개선하기 위한 프레임워크로, 5단계의 성숙도 수준을 정의합니다. 각 단계는 프로세스의 성숙도와 관리 수준을 나타냅니다.
    • 초등학생도 이해하기 쉬운 설명
      • CMMI는 회사가 일을 얼마나 잘하는지를 평가하는 방법입니다. 4단계에서는 숫자와 데이터를 사용해서 얼마나 잘하고 있는지 정확하게 측정할 수 있어요.
    • 각 문제 항목 해설
      • 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스 아래 통제되는 상태
        • 이는 CMMI의 2단계인 "관리" 수준에 해당합니다. 기본적인 프로젝트 관리가 이루어지는 단계입니다.
      • 위와 더불어 조직을 관리하기 위한 프로세스가 존재하는 상태
        • 이는 CMMI의 3단계인 "정의됨" 수준에 해당합니다. 조직 전반에 걸쳐 표준화된 프로세스를 유지하는 단계입니다.
      • 위와 더불어 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태
        • 이 설명이 CMMI의 4단계인 "양적 관리" 수준에 해당합니다. 데이터 기반으로 프로세스를 관리하고 개선하는 단계입니다.
      • 위와 더블어 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태
        • 이는 CMMI의 5단계인 "최적화" 수준에 해당합니다. 지속적인 개선과 혁신을 중시하는 단계입니다.
    • 오답 노트
      • 일정이나 비용 중심: 이는 초기 관리 단계로, 정량적 측정과는 관련이 없습니다.
      • 조직을 위한 프로세스 존재: 정량적 측정을 포함하지 않는 표준화된 프로세스가 강조됩니다.
      • 최적화된 프로세스: 이는 최종 단계로, 정량적 측정을 넘어 지속적인 개선을 목표로 합니다.

    20.

    21.

    22.

    23.

    24.

     

     

    [3과목]

    01. 아래의 예시를 수행하기 위해 사용해야 하는 확률분포로 올바른 것은?

    두 집단의 평균을 비교할 경우 두 집단의 분산이 같은 경우와 다른 경우의 가설검정 수행 방법이 달라진다. 따라서 두 집단의 분산이 같은지 다른지를 판별하기 위한 등분산 검정을 수행하기 위한 확률분포다.
    1. 정규분포
    2. 카이제곱 분포
    3. T 분포
    4. F 분포

    해설

    • F 분포는 등분산 검정 및 분산분석을 위해 활용된다.

    • t-분포
      • 표준정규분포를 활용하여 모평균(모수)을 추정하기 위해서는 모표준편차를 사전에 알고 있어야 한다. 그러나 현실적으로 모표준편차를 모르기 때문에 t분포를 이용하여 모평균 검정 또는 두 집단의 평균이 동일한지 계산하기 위한 검정통계량으로 활용된다.
      • 자유도 커질수록 t분포는 표준정규분포에 가까워 진다.

    • 카이제곱 분포
      • 표준정규분포를 따르는 확률변수 Z1, Z2, Z3, ..., Zn의 제곱의 합X는 자유도가 n인 카이제곱 분포를 따른다.
      • 카이제곱 분포는 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다.

    02. 다음 중 연관분석의 측도에 대한 설명으로 올바른 것은?

    1. 향상도 A -> B: A를 구매하지 않았을 때 품목 B를 구매할 확률 대비, A를 구매했을 때 품목 B의 구매 확률의 증가 비율을 의미한다.
    2. 신뢰도 A -> B: 두 개의 품목 A, B에 대하여 구매 발생 비율을 의미한다.
    3. 지지도 B -> A: 품목 A가 구매되었을 때 품목 B의 구매 확률을 의미한다.
    4. 향상도 A -> B: 품목 A가 구매될 때 B가 구매될 확률 대비 품목 A가 구매될 비율을 의미한다.

     

    03. 다음 중 단순회귀분석에서 최소제곱법에 대한 설명으로 올바른 것은 무엇인가?

    1. 실제값과 추정값의 차이의 제곱합이 최소가 되는 회귀계수와 회귀상수를 찾는 방법
    2. 실제값과 추정값의 차이의 합의 제곱이 최소가 되는 회귀계수와 회귀상수를 찾는 방법
    3. 실제값과 추청값의 차이의 제곱합이 최소가 되는 결정계수와 F-통계량을 찾는 방법
    4. 실제값과 추정값의 차이의 합의 제곱이 최소가 되는 결정계수와 F-통계량을 찾는 방법

    해설

    • 단순회귀분석에서 최소제곱법(OLS, Ordinary Least Squares)은 주어진 데이터에 가장 잘 맞는 직선을 찾기 위해 사용되는 방법입니다. 이 방법은 실제 관측값과 모델이 예측한 값 간의 차이, 즉 잔차(residual)의 제곱합을 최소화하는 회귀계수(기울기와 절편)를 찾는 것을 목표.

    04. 데이터 마이닝은 그 특성에 따라 지도학습과 비지도학습으로 나눌 수 있다. 다음에 나열된 기법 중 그 특성이 다른 것은 무엇인가?

    1. Expectation Maximization Algorithm
    2. K-Means Clusetering
    3. Apriori Algorithm
    4. Linear Regression

    해설

    1. Expectation Maximization Algorithm (EM Algorithm)
      • EM 알고리즘은 비지도 학습 알고리즘으로, 관측되지 않은 잠재 변수를 포함한 통계 모델의 매개변수를 최대 우도 추정 또는 최대 사후 확률 추정을 통해 찾는 방법입니다. 주로 클러스터링과 같은 비지도 학습 문제에 사용됩니다.
    2. K-Means Clustering
      • K-평균 군집화는 비지도 학습 알고리즘으로, 레이블이 없는 데이터를 여러 군집으로 나누는 데 사용됩니다. 데이터 포인트를 중심점(centroid)과의 거리 기반으로 군집화하는 방법입니다.
    3. Apriori Algorithm
      • Apriori 알고리즘은 비지도 학습 알고리즘으로, 연관 규칙 학습을 통해 데이터 내의 항목 간의 관계를 식별합니다. 주로 시장 바구니 분석과 같은 응용 분야에서 사용됩니다
    4. Linear Regression
      • 선형 회귀는 지도 학습 알고리즘으로, 레이블이 있는 데이터를 사용하여 독립 변수와 종속 변수 간의 선형 관계를 모델링합니다 
         
         
        . 주어진 입력 변수에 대해 출력 변수를 예측하는 데 사용됩니다.

    05. 다음 중 분산분석의 사후검정방법이 아닌 것은 무엇인가?

    1. Tukey 검정
    2. Bonferroni 검정
    3. Fisher' LSD
    4. Shapiro 검정

    해설

    • 개념 개요
      • 분산분석(ANOVA) 후에 사후검정(Post-hoc test)은 그룹 간의 평균 차이를 더 자세히 분석하기 위해 사용됩니다. 사후검정은 여러 그룹 간의 차이를 확인하여 통계적 유의성을 평가합니다. 주요 사후검정 방법으로는 Tukey, Bonferroni, Fisher's LSD 등이 있습니다.
    • 초등학생도 이해할 수 있는 설명
      • 분산분석은 여러 그룹이 있을 때 이 그룹들 간에 차이가 있는지를 알아보는 방법이에요. 만약 차이가 있다고 나오면, 사후검정을 통해 어떤 그룹들 사이에 차이가 있는지를 더 자세히 알아보는 거예요.
    • 문제 항목에 대한 상세한 해설
    1. Tukey 검정: ANOVA 후에 모든 그룹 간의 평균 차이를 비교하는 사후검정 방법입니다.
    2. Bonferroni 검정: 다중 비교 시 오류를 줄이기 위해 사용되는 보수적인 사후검정 방법입니다.
    3. Fisher's LSD: 가장 엄격하지 않은 사후검정 방법으로, ANOVA 후에 그룹 간의 차이를 비교합니다.
    4. Shapiro 검정: 정규성을 검정하는 방법으로, 사후검정이 아닙니다. 이는 데이터를 분석하기 전에 데이터가 정규분포를 따르는지를 확인하는 데 사용됩니다.

    06. 다음 중 의사결정나무에 대한 설명으로 잘못된 것은?

    1. 모델이 직관적이고 해석이 용이하나, 독립변수들 사이의 중요도 판단이 쉽지 않다는 어려움이 있다.
    2. 이상값에 민감하지 않다는 장점이 있으나, 과적합 발생 가능성이 높다는 문제점이 있다.
    3. CHAD 알고리즘과 C4.5 알고리즘은 이산형, 연속형 모두에 대하여 적용 가능하나, CART 알고리즘은 이산형 변수에만 적용 가능하다.
    4. 데이터에 대한 선형성, 정규성 등의 가정이 필요하지 않으나, 분류 경계선 근처 자료에 대한 오차가 크다.

    해설

    • 개념 개요
      • 의사결정나무는 데이터를 분류하거나 회귀 분석을 수행하는 데 사용되는 머신러닝 알고리즘입니다. 이 알고리즘은 데이터를 여러 조건에 따라 분할하여 예측을 수행합니다. 의사결정나무는 직관적이고 해석이 용이하지만, 과적합과 같은 문제점도 있습니다.
    • 초등학생도 이해할 수 있는 설명
      • 의사결정나무는 질문을 통해 결정을 내리는 방법이에요. 예를 들어, "오늘 우산을 가져갈까?"라는 질문에 대해 나무처럼 여러 가지 질문을 하면서 답을 찾는 거예요. 이 방법은 이해하기 쉽지만, 너무 많은 질문을 하면 헷갈릴 수 있어요.
    • 문제 항목에 대한 상세한 해설
    1. 모델이 직관적이고 해석이 용이하나, 독립변수들 사이의 중요도 판단이 쉽지 않다는 어려움이 있다: 의사결정나무는 직관적이고 해석하기 쉬운 모델입니다. 그러나 독립변수들 간의 중요도를 판단하는 데는 한계가 있을 수 있습니다.
    2. 이상값에 민감하지 않다는 장점이 있으나, 과적합 발생 가능성이 높다는 문제점이 있다: 의사결정나무는 이상값에 비교적 민감하지 않지만, 과적합의 위험이 큽니다
    3. CHAD 알고리즘과 C4.5 알고리즘은 이산형, 연속형 모두에 대하여 적용 가능하나, CART 알고리즘은 이산형 변수에만 적용 가능하다: 이 설명은 잘못되었습니다. CART 알고리즘은 이산형과 연속형 변수 모두에 적용 가능합니다
    4. 데이터에 대한 선형성, 정규성 등의 가정이 필요하지 않으나, 분류 경계선 근처 자료에 대한 오차가 크다: 의사결정나무는 데이터의 선형성이나 정규성을 가정하지 않습니다. 그러나 분류 경계선 근처에서는 오차가 클 수 있습니다

    07. 다음 중 분산팽창계수(VIF)에 대한 설명으로 올바른 것은 무엇인가?

    1. 분산분석의 귀무가설이 기각될 때 어느 집단이 이질적인지 파악하기 위해 사용되는 지표
    2. 회귀분석에서 독립변수 간의 상호선형 관계가 존재하는지 파악하기 위해 사용되는 지표
    3. 군집분석을 수행한 뒤 데이터들이 얼마나 잘 군집화되었는지 파악하기 위해 사용되는 지표
    4. 주성분분석을 수행한 뒤 각각의 주성분 사이에 상관성이 존재하는지 파악하기 위해 사용되는 지표

    해설

    • 개념 개요
      • 분산팽창계수(VIF)는 회귀분석에서 독립변수 간의 다중공선성을 진단하는 지표입니다. VIF 값이 높으면 독립변수들 사이에 강한 상관관계가 있다는 것을 의미하며, 일반적으로 VIF 값이 10을 넘으면 다중공선성이 있다고 판단합니다.

    08. 다음 중 R에서 apriori 알고리즘을 통한 연관분석을 수행한 뒤 연관 규칙에 대한 결과를 확인하기 위한 함수로 올바른 것은?

    1. inspect
    2. aov
    3. summary
    4. arule

    해설

    • 개념 개요
      • Apriori 알고리즘은 연관 분석을 수행하는 데 사용되는 알고리즘으로, 데이터에서 자주 발생하는 항목 집합과 이들 간의 연관 규칙을 찾습니다. R에서는 `apriori()` 함수를 사용하여 연관 분석을 수행하며, 결과를 확인하기 위해 `inspect()` 함수를 사용합니다.

    09. 모델 구축 시 데이터 분할을 통해 각각의 목적을 갖고 데이터를 활용한다. 다음 중 모델의 과적합에 대한 미세조정을 위해 활용되는 데이터는 무엇인가?

    1. 훈련용 데이터
    2. 검정용 데이터
    3. 평가용 데이터
    4. 보완용 데이터

    해설

    • 개념 개요
      • 과적합은 모델이 학습 데이터에 너무 잘 맞춰져서 새로운 데이터에 일반화하는 능력이 떨어지는 현상을 말합니다. 이를 방지하기 위해 검정용 데이터를 사용하여 모델의 성능을 평가하고 조정합니다.
    • 초등학생도 이해하기 쉬운 설명
      • 모델이 공부를 너무 열심히 해서 시험 문제만 잘 풀고, 새로운 문제는 잘 못 푸는 상황을 막기 위해, 시험 전에 연습 문제를 풀어보는 것과 비슷합니다. 이 연습 문제가 검정용 데이터입니다.
    • 각 문제 항목 해설
      • 훈련용 데이터
        • 모델을 학습시키는 데 사용되는 데이터입니다. 과적합을 직접적으로 조정하는 데 사용되지는 않습니다.
      • 검정용 데이터
        • 모델의 과적합 여부를 판단하고 조정하기 위해 사용됩니다. 학습 과정 중에 모델의 성능을 평가하는 데 중요한 역할을 합니다.
      • 평가용 데이터
        • 최종적으로 모델의 성능을 평가하기 위해 사용됩니다. 검정용 데이터와는 다르게, 학습 과정 중에는 사용되지 않습니다.
      • 보완용 데이터
        • 일반적으로 사용되는 용어가 아닙니다.
    • 오답 노트
      • 훈련용 데이터와 평가용 데이터는 각각 학습과 최종 평가에 사용되며, 과적합 조정에는 직접적으로 사용되지 않습니다.

    10. 다음 중 다차원 척도법에 대한 설명으로 잘못된 것은?

    1. 데이터를 저차원 공간에 위치시켜 데이터 간의 유사성을 시각화할 수 있는 기법이다.
    2. STRESS 값을 활용하여 적합도 판정을 할 수 있으며 그 값이 1에 가까울수록 적합이 매우 잘 되었다고 한다.
    3. 데이터가 서열척도인 경우에는 비계량적 방법을 활용해야 한다.
    4. 데이터가 비율척도, 구간척도인 경우에는 유클리디안 거리 행렬을 활용할 수 있다.

    해설

    • 개념 개요
      • 다차원 척도법(MDS)은 데이터를 저차원 공간에 배치하여 데이터 간의 유사성을 시각적으로 표현하는 기법입니다. 이를 통해 데이터의 구조를 이해하고 분석할 수 있습니다.
    • 초등학생도 이해하기 쉬운 설명
      • 다차원 척도법은 친구들 사이의 거리를 그림으로 그려서 누가 누구랑 가까운지 보여주는 방법이에요. 이렇게 하면 친구들 사이의 관계를 쉽게 알 수 있어요.
    • 각 문제 항목 해설
      • 데이터를 저차원 공간에 위치시켜 데이터 간의 유사성을 시각화할 수 있는 기법이다.
        • 다차원 척도법은 데이터를 2차원 또는 3차원 공간에 배치하여 유사성을 시각화합니다.
      • STRESS 값을 활용하여 적합도 판정을 할 수 있으며 그 값이 1에 가까울수록 적합이 매우 잘 되었다고 한다.
        • STRESS 값은 모델의 부적합도를 나타내며, 값이 작을수록(0에 가까울수록) 모델이 잘 적합된 것입니다.
      • 데이터가 서열척도인 경우에는 비계량적 방법을 활용해야 한다.
        • 서열척도의 경우 비계량적 MDS를 사용하여 순서 정보를 보존합니다.
      • 데이터가 비율척도, 구간척도인 경우에는 유클리디안 거리 행렬을 활용할 수 있다.
        • 비율척도나 구간척도의 경우 계량적 MDS를 사용하며, 유클리디안 거리 행렬을 활용합니다.
    • 오답 노트
      • STRESS 값: STRESS 값이 1에 가까울수록 적합도가 높은 것이 아니라, 0에 가까울수록 적합도가 높습니다. 이는 MDS에서 모델의 적합도를 평가할 때 중요한 요소입니다.

    11. 다음 중 텍스트 마이닝에 대한 설명으로 잘못된 것은?

    1. 분석 대상이 텍스트라는 비정형 데이터이므로 비정형 데이터 마이닝으로 분류된다.
    2. 한국어의 경우 조사를 제거하거나 시제를 현재형으로 돌리는 등 단어의 어원을 찾는 작업을 토크나이저라 한다.
    3. 텍스트 마이닝의 대표적인 활용방안으로는 문서의 요약, 분류, 군집, 추출 등이 있다.
    4. 감성분석은 일종의 텍스트 마이닝으로 '오피니언 마이닝'으로도 불린다.

    해설

    • 개념 개요
      • 텍스트 마이닝은 비정형 데이터인 텍스트에서 유용한 정보를 추출하는 기법입니다. 주로 자연어 처리 기법을 사용하여 텍스트를 분석하고, 문서 요약, 분류, 군집, 감성 분석 등의 다양한 작업에 활용됩니다.
    • 초등학생도 이해하기 쉬운 설명
      • 텍스트 마이닝은 컴퓨터가 책이나 글을 읽고 중요한 정보를 찾아내는 방법이에요. 예를 들어, 글에서 어떤 단어가 많이 나오는지 알아보거나, 글의 내용을 요약하는 데 사용할 수 있어요.
    • 각 문제 항목 해설
      • 분석 대상이 텍스트라는 비정형 데이터이므로 비정형 데이터 마이닝으로 분류된다.
        • 맞는 설명입니다. 텍스트 마이닝은 비정형 데이터인 텍스트를 분석합니다.
      • 한국어의 경우 조사를 제거하거나 시제를 현재형으로 돌리는 등 단어의 어원을 찾는 작업을 토크나이저라 한다.
        • 잘못된 설명입니다. 이러한 작업은 일반적으로 형태소 분석이나 어간 추출이라고 하며, 토크나이저는 텍스트를 작은 단위로 나누는 작업입니다.

    12. 다음 중 시계열 모형에 대한 설명으로 잘못된 것은?

    1. 자기회귀모형은 특정 시점의 자료는 그 이전 n개의 데이터에 의해 설명될 수 있다는 전제하에 모형을 구축하는 것이다.
    2. 이동평균모형은 이전 시점들의 백색 잡음의 선형결합으로 표현될 수 있는 모형을 의미한다.
    3. 자기상관함수 또는 부분자기상관함수를 활용해 시차 값 n을 판별할 수 있다.
    4. 자기회귀누적이동평균모형 ARIMA(p, d, q)에서 p는 시계열 자료를 정상화하기 위해 필요한 차분 횟수를 의미한다.

    해설

    • ARIMA(p, d, q) 모델은 시계열 데이터를 분석하고 예측하는 데 사용되는 통계적 모델입니다. 이 모델은 다음과 같은 세 가지 주요 구성 요소로 이루어져 있습니다:
      • 자기회귀(AR, Autoregressive) 부분: 과거의 값들이 현재 값에 미치는 영향을 모델링합니다. 여기서 p는 과거 관측값의 수를 나타냅니다.
      • 차분(I, Integrated) 부분: 시계열 데이터를 정상화하기 위해 차분을 사용합니다. d는 차분의 횟수를 나타내며, 비정상성을 제거하는 데 사용됩니다
      • 이동 평균(MA, Moving Average) 부분: 과거의 예측 오차가 현재 값에 미치는 영향을 모델링합니다. q는 과거 오차항의 수를 나타냅니다

    13. 다음 중 회귀분석의 결과를 해석하는 방법을 잘못 설명한 것은?

    1. p-value 값을 확인하고 모형의 유의성을 판단한다.
    2. 각 독립변수의 회귀계수를 확인하고 유의한 변수를 판단한다.
    3. 다중회귀분석의 경우 다중공선성의 여부를 판단해야 한다.
    4. 결정계수를 확인하고 모형의 설명력을 판단한다.

    해설

    • 개념 개요
      • 회귀분석은 종속변수와 하나 이상의 독립변수 간의 관계를 모델링하는 통계 기법입니다. 이를 통해 변수 간의 관계를 이해하고 예측할 수 있습니다.
    • 초등학생도 이해하기 쉬운 설명
      • 회귀분석은 마치 여러 가지 요인들이 결과에 어떻게 영향을 미치는지를 알아보는 방법이에요. 예를 들어, 공부 시간과 성적이 어떻게 관련이 있는지를 알아보는 것과 비슷해요.
    • 각 문제 항목 해설
      • p-value 값을 확인하고 모형의 유의성을 판단한다.
        • P-value는 각 독립변수가 결과에 미치는 영향이 의미 있는지를 확인하는 데 사용됩니다. 작을수록 중요합니다.
      • 각 독립변수의 회귀계수를 확인하고 유의한 변수를 판단한다.
        • 잘못된 설명입니다. 회귀계수는 변수의 영향력을 나타내지만, 유의성 여부는 반드시 p-value를 통해 판단해야 합니다.

    14. 서열척도인 두 변수 값의 관계를 나타낸 값으로 한 변수를 단조 증가 함수로 바꿔 다른 변수를 표현할 수 있는 상관계수는 무엇인가?

    1. 자카드 계수
    2. 피어슨 상관계수
    3. 스피어만 상관계수
    4. 단순 일치 계수

    해설

    • 개념 개요
      • 스피어만 상관계수는 두 변수 간의 순위 상관관계를 측정하는 비모수적 통계 지표입니다. 이는 데이터의 순위를 기반으로 하여 두 변수 간의 단조 관계를 평가합니다. 스피어만 상관계수는 피어슨 상관계수와 달리 데이터의 분포에 대한 가정이 필요 없으며, 비선형적인 관계도 평가할 수 있습니다.
    • 초등학생도 이해하기 쉬운 설명
      • 스피어만 상관계수는 친구들 사이에서 누가 더 키가 큰지, 누가 더 달리기를 잘하는지를 순서대로 비교하는 방법이에요. 키와 달리기 실력 사이에 어떤 관계가 있는지 알아보는 거죠. 이렇게 순서를 비교하면 숫자가 꼭 정확하지 않아도 관계를 알 수 있어요.
    • 각 문제 항목 해설
      • 자카드 계수
        • 두 집합 간의 유사성을 측정하는 지표로, 주로 집합의 교집합과 합집합을 비교하여 유사성을 평가합니다. 서열척도와는 관련이 없습니다.
      • 피어슨 상관계수
        • 두 변수 간의 선형 상관관계를 측정하는 지표로, 연속형 데이터에 적합합니다. 서열척도 데이터에는 적절하지 않습니다.
      • 스피어만 상관계수
        • 서열척도 데이터 간의 순위 상관관계를 측정하는 비모수적 지표입니다. 한 변수를 단조 증가 함수로 변환하여 다른 변수를 표현할 수 있습니다.
      • 단순 일치 계수
        • 두 변수 간의 일치 정도를 측정하는 지표로, 주로 범주형 데이터에 사용됩니다. 서열척도와는 관련이 없습니다.

    15.  다음 중 보기와 같은 상황이 주어졌을 때 수행해야 할 가설검정의 종류로 올바른 것은?

    한 백화점에서 A 상품, B 상품, C 상품 모두를 구매한 고객들을 대상으로 어떤 상품이 더 높은 만족도를 보였는지 각 제품에 대하여 선호도 점수를 조사했다. 단순히 결과를 비교하기에 앞서 각 상품에 VVIP 고객, VIP 고객, 일반 고객을 나누어 점수를 비교해야 할 것으로 판단된다.
    1. 이표본 T 검정
    2. 카이제곱 검정
    3. 일원분산분석
    4. 이원분산분석

    해설

    • 개념 개요
      • 이원분산분석은 두 개 이상의 범주형 독립변수가 종속변수에 미치는 영향을 분석하는 통계적 방법입니다. 이는 각 독립변수의 주효과뿐만 아니라, 두 독립변수 간의 상호작용 효과도 평가할 수 있습니다.
    • 초등학생도 이해하기 쉬운 설명
      • 이원분산분석은 마치 여러 가지 맛의 아이스크림을 서로 다른 크기의 컵에 담아 맛을 비교하는 것과 같아요. 여기서 맛과 컵 크기가 각각 독립변수이고, 맛의 점수가 종속변수예요. 이 분석을 통해 어떤 맛이 더 인기 있는지, 그리고 컵 크기에 따라 그 인기가 어떻게 달라지는지를 알 수 있어요.
    • 각 문제 항목 해설
      • 이표본 T 검정
        • 두 그룹 간의 평균 차이를 비교하는 데 사용됩니다. 세 개 이상의 그룹을 비교할 때는 적절하지 않습니다.
      • 카이제곱 검정
        • 범주형 데이터 간의 독립성이나 적합성을 검정하는 데 사용됩니다. 평균 차이를 비교하는 분산분석과는 다릅니다.
      • 일원분산분석
        • 하나의 독립변수에 대한 여러 그룹 간 평균 차이를 분석합니다. 두 개 이상의 독립변수를 고려해야 하는 경우에는 적절하지 않습니다.
      • 이원분산분석
        • 두 개 이상의 범주형 독립변수가 종속변수에 미치는 영향을 분석합니다. 주어진 상황에서 VVIP, VIP, 일반 고객이라는 두 가지 범주(고객 유형 및 상품)를 고려하므로 이원분산분석이 적합합니다.
    • 오답 노트
      • 이표본 T 검정과 카이제곱 검정은 각각 두 그룹 간의 평균 차이나 범주형 데이터의 관계를 분석하는 데 사용되며, 다중 그룹 평균 비교에는 적합하지 않습니다.
      • 일원분산분석은 하나의 독립변수를 고려하므로, 두 개 이상의 범주형 변수를 고려해야 하는 상황에는 적절하지 않습니다.

    16. 다음 중 변수의 표준화와 함께 변수의 상관성까지 고려한 통계적 거리는?

    1. 체비셰프 거리
    2. 마할라노비스 거리
    3. 민코프스키 거리
    4. 표준화 거리

    해설

    • 개념 개요
      • 마할라노비스 거리는 다변량 공간에서 두 점 사이의 거리를 측정하는 방법으로, 변수 간의 상관성을 고려하여 거리를 계산합니다. 이는 데이터가 중심점(평균)에서 얼마나 떨어져 있는지를 측정하며, 특히 이상치 탐지에 유용합니다.
    • 초등학생도 이해하기 쉬운 설명
      • 마할라노비스 거리는 마치 여러 방향으로 걸어갈 수 있는 길에서, 각 길이 서로 얼마나 관련이 있는지를 고려해서 가장 가까운 길을 찾는 것과 같아요. 이렇게 하면 길이 서로 겹치는 경우에도 정확하게 거리를 잴 수 있어요.
    • 각 항목 해설
      • 체비셰프 거리
        • 각 차원에서의 최대 차이를 사용하는 거리로, 상관성을 고려하지 않습니다.
      • 마할라노비스 거리
        • 변수의 표준화와 상관성을 모두 고려하여 거리를 측정합니다. 변수 간의 상관 관계를 반영하는 점에서 다른 거리와 차별됩니다.
      • 민코프스키 거리
        • 일반화된 거리 측정 방법으로, 특정한 형태로는 유클리드 거리나 맨해튼 거리가 될 수 있습니다. 상관성을 고려하지 않습니다.
      • 표준화 거리
        • 단순히 변수를 표준화하여 사용하는 거리로, 상관성을 직접적으로 고려하지 않습니다.