본문 바로가기
[자격증]/ADsP 문제 풀이

[ADsP 문제풀이] 스파르타코딩클럽 오답 정리

by 에디터 윤슬 2024. 11. 1.
 

01. 다음 중 빅데이터 분석의 특성에 대한 설명으로 가장 부적절한 것은?

① 더 많은 정보가 더 많은 가치를 창출할 수 있는 것은 아니다.

② 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰력을 줄 수 있는 데이터를 찾는 것이 중요하다.

③ 빅데이터 과제와 관련된 주된 걸림돌은 비용이 아니다.

④ 데이터의 크기가 커질수록 분석을 많이 사용하는 것이 경쟁우위를 가져다주는 원천이 된다.

 

해설

  • 1. 더 많은 정보가 더 많은 가치를 창출할 수 있는 것은 아니다.
    • 설명: 빅데이터에서는 단순히 데이터의 양이 많다고 해서 항상 더 큰 가치를 창출하는 것은 아닙니다. 중요한 것은 데이터의 질 분석 방법입니다. 의미 있는 통찰을 얻기 위해서는 적절하게 데이터를 처리하고 분석하는 것이 중요합니다.
  • 2. 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰력을 줄 수 있는 데이터를 찾는 것이 중요하다.
    • 설명: 빅데이터 분석의 목표는 비즈니스에 도움이 되는 객관적이고 종합적인 통찰력을 제공하는 것입니다. 이를 위해서는 단순히 데이터를 수집하는 것뿐만 아니라, 비즈니스에 맞는 중요한 데이터를 선별하고 분석하는 것이 중요합니다.
  • 3. 빅데이터 과제와 관련된 주된 걸림돌은 비용이 아니다.
    • 설명: 빅데이터 분석에서 가장 큰 걸림돌은 비용보다는 데이터의 품질, 분석 기술, 그리고 인프라 구축입니다. 물론 비용도 중요한 요소이지만, 데이터 수집과 처리, 분석 기술의 부족이 더 큰 문제로 작용할 수 있습니다.
  • 4. 데이터의 크기가 커질수록 분석을 많이 사용하는 것이 경쟁우위를 가져다주는 원천이 된다.
    • 설명: 데이터의 크기가 커진다고 해서 무조건 경쟁우위를 가져다주는 것은 아닙니다. 중요한 것은 데이터의 양보다는 그 데이터를 얼마나 효과적으로 분석하고 활용하느냐입니다. 단순히 많은 데이터를 보유하는 것만으로는 경쟁우위를 확보할 수 없으며, 적절한 분석과 활용이 필수적입니다.

02. 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없도록 변환하는 과정을 무엇이라고 하는가?

① 데이터 암호화(Data Encryption)

② 데이터 익명화(Data Anonymization)

③ 데이터 통합(Data Integration)

④ 데이터 마스킹(Data Masking)

 

해설

  • 1. 데이터 암호화(Data Encryption)
    • 설명: 데이터 암호화는 데이터를 특정 알고리즘을 사용하여 암호화된 형태로 변환하는 방법입니다. 암호화된 데이터는 복호화 키를 사용해야만 원래의 데이터를 복원할 수 있습니다. 데이터 암호화는 주로 전송 중이거나 저장 중인 데이터를 보호하는 데 사용됩니다.
    • 부적절한 이유: 암호화는 데이터를 보호하는 방법이지만, 개인 식별 정보를 삭제하거나 알아볼 수 없도록 변환하는 과정과는 다릅니다.
  • 2. 데이터 익명화(Data Anonymization)
    • 설명: 데이터 익명화는 개인 식별 정보를 삭제하거나 알아볼 수 없도록 변환하는 과정입니다. 이를 통해 데이터가 특정 개인과 연결되지 않도록 하여 개인정보를 보호합니다. 익명화된 데이터는 분석 목적으로 사용할 수 있지만, 개인을 식별할 수 없게 됩니다.
    • 적절한 이유: 데이터 익명화는 정확히 문제에서 묻고 있는 "개인 식별 정보를 삭제하거나 알아볼 수 없도록 변환하는 과정"을 의미합니다.
  • 3. 데이터 통합(Data Integration)
    • 설명: 데이터 통합은 여러 출처에서 데이터를 가져와서 하나의 통합된 데이터셋으로 결합하는 과정입니다. 이는 다양한 시스템이나 데이터베이스에서 데이터를 모아 분석할 때 사용됩니다.
    • 부적절한 이유: 데이터 통합은 데이터를 결합하는 과정이지, 개인 식별 정보를 제거하거나 변환하는 과정과는 관련이 없습니다.
  • 4. 데이터 마스킹(Data Masking)
    • 설명: 데이터 마스킹은 민감한 정보를 숨기거나 가리는 방법으로, 실제 데이터를 대체하여 테스트나 개발 환경에서 사용할 수 있도록 하는 방법입니다. 마스킹된 데이터는 원본 데이터를 그대로 유지하면서도 민감한 정보가 노출되지 않도록 보호합니다.
    • 부적절한 이유: 데이터 마스킹은 민감한 정보를 숨기는 방법이지만, 완전히 익명화하여 개인을 식별할 수 없도록 하는 것과는 다릅니다.

03. 온라인 또는 SNS 상에서 생성되고 저장, 유통되는 개인의 사진이나 거래 정보, 개인의 성향과 관련된 정보에 대해 소유권을 강화하고, 이에 대한 유통 기한을 정하거나 삭제, 수정, 영구적인 파기를 요청할 수 있는 권리의 개념은 무엇인가?

① 정보 자기결정권

② 프라이버시 보호권

③ 잊힐 권리

④ 개인정보 보호권

 

해설

  • 잊힐 권리는 인터넷에서 생성·저장·유통되는 개인의 성향과 관련된 정보에 대해 소유권을 강화하고, 이에 대해 유통기한을 정하거나 이를 삭제, 수정, 영구적인 파기를 요청할 수 있는 권리를 의미합니다. 이 권리는 특히 디지털 환경에서 개인의 정보가 무분별하게 남아있는 것을 방지하고, 개인이 자신의 정보에 대한 통제권을 행사할 수 있도록 보장하는 개념입니다.
    • 각 선택지 분석
      • 정보 자기결정권:
        • 정보 자기결정권은 개인이 자신의 개인정보가 언제, 누구에게, 어느 범위까지 알려지고 이용될지를 스스로 결정할 수 있는 권리입니다. 이는 개인정보의 수집, 이용, 제공 등에 대해 개인이 통제할 수 있는 권리를 말합니다. 하지만 잊힐 권리와는 다소 차이가 있습니다. 잊힐 권리는 특히 디지털 환경에서 정보의 삭제나 수정 요청과 관련된 권리입니다.
      • 프라이버시 보호권:
        • 프라이버시 보호권은 개인의 사생활을 보호받을 권리로, 타인으로부터 간섭받지 않고 사적인 정보를 보호받는 것을 의미합니다. 그러나 프라이버시 보호권은 잊힐 권리와는 다르게 정보의 삭제나 수정 요청과 관련된 구체적인 권리를 포함하지 않습니다.
      • 잊힐 권리: 
        • 잊힐 권리는 인터넷에서 생성된 개인의 정보에 대해 삭제, 수정, 영구적인 파기를 요청할 수 있는 권리입니다. 이는 디지털 시대에 개인의 정보가 무분별하게 유통되는 것을 방지하고, 개인이 자신의 정보에 대한 통제권을 행사할 수 있도록 보장하는 중요한 개념입니다.
      • 개인정보 보호권:
        • 개인정보 보호권은 개인의 개인정보를 보호받을 권리로, 개인정보가 무단으로 수집되거나 사용되지 않도록 하는 것을 의미합니다. 하지만 잊힐 권리는 그보다 더 구체적으로 정보의 삭제나 수정 요청과 관련된 권리를 강조합니다.

04. 기업의 데이터 분석 도입 수준을 명확하게 파악하기 위해 분석 준비도(Readiness)를 진단하는 것은 중요합니다. 분석 준비도를 측정하기 위한 요소들 중 가장 부적절한 것은?

① 분석 목표 및 전략

② 분석 기술 및 도구

③ 분석 관련 데이터 거버넌스

④ 분석 인력 및 조직

 

해설

  • 데이터 분석 준비도(Readiness)란?
    • 데이터 분석 준비도(Readiness)는 기업이 데이터 분석을 성공적으로 도입하고 활용할 수 있는 능력을 평가하는 과정입니다. 이는 기업이 데이터 분석을 통해 가치를 창출할 준비가 되어 있는지를 진단하는 중요한 단계입니다.
  • 데이터 분석 준비도를 평가하는 주요 요소들
    • 분석 목표 및 전략: 데이터 분석을 도입하기 위해서는 명확한 목표와 전략이 필수적입니다. 기업이 무엇을 분석하고자 하는지, 어떤 문제를 해결하려는지에 대한 명확한 목표 설정이 필요합니다. 또한, 분석 결과를 어떻게 비즈니스에 적용할 것인지에 대한 전략도 중요합니다.
    • 분석 기술 및 도구: 데이터를 처리하고 분석할 수 있는 적절한 기술과 도구를 갖추고 있는지도 중요한 요소입니다. 데이터 분석 소프트웨어, 클라우드 인프라, 데이터 처리 기술 등이 이에 해당됩니다.
    • 데이터 거버넌스: 데이터의 품질, 보안, 접근성 등을 관리하는 체계인 데이터 거버넌스도 중요합니다. 데이터가 제대로 관리되지 않으면 분석 결과의 신뢰성이 떨어질 수 있습니다.
  • 문제 설명
    • 1. 분석 목표 및 전략
      • 설명: 데이터 분석을 성공적으로 수행하기 위해서는 명확한 목표와 전략이 필수적입니다. 무엇을 분석하고자 하는지, 어떤 문제를 해결하려는지에 대한 명확한 목표 설정은 필수적인 준비 요소입니다.
    • 2. 분석 기술 및 도구
      • 설명: 데이터를 처리하고 분석할 수 있는 적절한 기술과 도구를 갖추는 것은 매우 중요합니다. 예를 들어, 데이터베이스 관리 시스템(DBMS), 클라우드 기반의 데이터 처리 도구 등이 필요합니다.
    • 3. 분석 관련 데이터 거버넌스
      • 설명: 데이터 거버넌스는 데이터의 품질과 보안을 유지하고 규제 준수를 보장하는 체계입니다. 이는 데이터의 신뢰성을 높이고, 데이터를 안전하게 관리하는 데 중요한 역할을 합니다.
    • 4. 분석 인력 및 조직
      • 설명: 물론 전문 인력과 조직 구조는 중요하지만, 이는 직접적으로 "분석 준비도"를 평가하는 핵심 요소로 보기에는 부적절할 수 있습니다. 기업의 실제적인 데이터 분석 준비도를 평가하는 데 있어서는 기술과 도구, 목표와 전략이 더 중요한 역할을 합니다.
      • 부적절한 이유: 전문 인력과 조직은 중요하지만, 이는 "준비도"보다는 실행 과정에서 더 중요한 요소로 작용할 수 있습니다.

05. 다음 중 모분산의 추론에 대한 설명으로 가장 부적절한 것은?

① 모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 모분산이 추론의 대상이 된다.

② 정규모집단으로부터 n 개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 t 분포를 따른다.

③ 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 모분산에 대한 추론을 유사하게 시행할 수 있다

④ 두 표본의 분산 차이를 검정하는 분산비 검정의 검정통계량은 F분포를 따른다.

 

해설

  • 모분산의 추론이란?
    • 모분산(Variance of a population)은 모집단의 변동성 또는 퍼짐 정도를 나타내는 중요한 통계량입니다. 하지만 모집단 전체를 조사하는 것은 현실적으로 불가능하기 때문에, 표본을 통해 모분산을 추정하거나 검정하는 과정을 거칩니다. 이때 사용하는 여러 가지 통계적 방법이 있습니다.
  • 주요 개념
    • 표본 분산(Sample Variance): 표본에서 계산된 분산으로, 이를 통해 모집단 분산(모분산)을 추정할 수 있습니다.
    • 자유도(Degrees of Freedom): 표본 분산을 계산할 때, 표본 크기에서 1을 뺀 값인 을 자유도라고 합니다. 이는 표본 분산이 모집단 분산을 더 잘 추정할 수 있도록 보정하는 역할을 합니다.
    • 카이제곱 분포(Chi-Square Distribution): 표본 분산은 정규분포를 따르는 모집단에서 추출된 경우, 자유도가 인 카이제곱 분포를 따릅니다. 이를 통해 모분산에 대한 추론을 할 수 있습니다.
    • F-분포(F-Distribution): 두 개의 표본 분산을 비교할 때 사용하는 통계량은 F-분포를 따릅니다. 이를 통해 두 집단 간의 분산 차이를 검정할 수 있습니다.
  • 각 선택지 분석
    • 1. 모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 모분산이 추론의 대상이 된다.
      • 설명: 모집단의 변동성이나 퍼짐 정도를 알고 싶을 때, 모분산이 중요한 추론 대상이 됩니다. 예를 들어, 주식 시장에서 주가 변동성을 분석할 때 모분산을 추정하는 것이 중요할 수 있습니다.
    • 2. 정규모집단으로부터 n 개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 t 분포를 따른다.
      • 설명: 표본 분산은 자유도가 인 카이제곱 분포(Chi-Square Distribution)를 따릅니다. t-분포는 주로 평균에 대한 추론에서 사용되며, 분산과 관련된 추론에서는 사용되지 않습니다.
      • 예시: 정규 모집단에서 표본을 뽑아 그 표본의 분산을 계산하면, 그 값은 카이제곱 분포에 따라 변동합니다.
      • 부적절한 이유: 표본 분산은 t-분포가 아니라 카이제곱 분포를 따르므로 이 설명은 부적절합니다.
    • 3. 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 모분산에 대한 추론을 유사하게 시행할 수 있다.
      • 설명: 중심극한정리에 따르면, 모집단이 정규분포를 따르지 않더라도 표본 크기가 충분히 크다면, 표본 평균의 분포는 대략적으로 정규분포에 가까워집니다. 이를 통해 모분산에 대한 추론도 유사하게 시행할 수 있습니다.
      • 예시: 모집단이 정규분포가 아니더라도 큰 표본을 사용하면 정규성을 가정하고 모분산을 추정할 수 있습니다.
    • 4. 두 표본의 분산 차이를 검정하는 분산비 검정의 검정통계량은 F분포를 따른다.
      • 설명: 두 집단 간의 분산 차이를 비교할 때 사용하는 검정 방법 중 하나가 F-검정(F-test)입니다. 이때 사용하는 검정통계량은 두 집단 간의 분산 비율로 계산되며, 그 통계량은 F-분포를 따릅니다.
      • 예시: 두 그룹의 시험 점수 변동성을 비교하고 싶다면 F-검정을 사용할 수 있으며, 그 결과는 F-분포에 따라 해석됩니다.
  • 추가 설명
    • 표본 분산은 자유도가 n−1인 카이제곱 분포(Chi-Square Distribution)를 따릅니다. t-분포는 주로 평균에 대한 추론에서 사용되며, 여기서 말하는 "표본의 분산"과 관련된 것은 아닙니다.

06. 상관 계수에 대한 설명 중 적절한 것은?

① 피어슨 상관 계수는 두 변수 간의 비선형 관계의 크기를 측정한다.

② 스피어만 상관계수는 두 변수 간의 선형적인 관계도 측정이 가능하다.

③ 피어슨 상관계수와 스피어만 상관계수는 0과 1 사이의 값을 가진다.

④ 피어슨 상관계수는 두 변수를 순위로 변환하여 그 순위 간의 스피어만 상관계수를 계산한다.

 

해설

  • 상관계수(Correlation Coefficient)란?
    • 상관계수는 두 변수 간의 관계의 강도와 방향을 측정하는 통계적 지표입니다. 상관계수는 -1에서 1 사이의 값을 가지며, 그 값에 따라 두 변수 간의 관계를 파악할 수 있습니다.
      • +1: 완벽한 양의 선형 관계 (한 변수가 증가할 때 다른 변수도 비례해서 증가)
      • -1: 완벽한 음의 선형 관계 (한 변수가 증가할 때 다른 변수는 비례해서 감소)
      • 0: 두 변수 간에 선형 관계가 없음
    • 피어슨 상관계수(Pearson Correlation Coefficient)
      • 피어슨 상관계수는 두 변수 간의 선형 관계를 측정하는 지표입니다. 이 상관계수는 두 변수 간의 관계가 얼마나 선형적인지를 나타냅니다.
      • 피어슨 상관계수는 주로 연속형 데이터에서 사용되며, 데이터가 정규 분포를 따르고 선형 관계가 있을 때 유효합니다.
    • 스피어만 상관계수(Spearman's Rank Correlation Coefficient)
      • 스피어만 상관계수는 두 변수 간의 순위 상관 관계를 측정하는 비모수적 통계 지표입니다. 이는 두 변수 간의 단조(monotonic) 관계를 평가하며, 데이터가 정규 분포를 따르지 않거나 비선형적인 경우에도 사용할 수 있습니다.
      • 스피어만 상관계수는 두 변수의 순위를 기반으로 계산되며, 값은 -1에서 +1 사이입니다.
      • 스피어만 상관계수는 주로 순위 데이터를 사용하여 비선형적인 단조 관계를 평가하지만, 선형적인 관계도 측정할 수 있습니다. 하지만 이는 스피어만 상관계수가 본래 설계된 목적은 아닙니다.
  • 각 선택지 분석
    • 1. 피어슨 상관 계수는 두 변수 간의 비선형 관계의 크기를 측정한다.
      • 설명: 피어슨 상관계수는 두 변수 간의 선형 관계를 측정하는 지표입니다. 비선형 관계를 측정하지 않습니다.
    • 2. 스피어만 상관계수는 두 변수 간의 선형적인 관계도 측정이 가능하다.
      • 설명: 스피어만 상관계수는 주로 순위 데이터를 사용하여 비선형적인 단조(monotonic) 관계를 평가하는 데 사용됩니다. 물론, 선형적인 데이터를 순위로 변환하여 사용할 수도 있지만, 스피어만 상관계수는 본래 선형 관계보다는 비선형적이고 단조적인 관계를 평가하기 위한 방법입니다.
      • 예시: 스피어만 상관계수를 사용하면 두 변수 간의 순위 변화에 따른 일관된 증가 또는 감소 패턴을 확인할 수 있습니다. 하지만 이는 선형적이지 않은 경우에도 유효합니다.
      • 부적절한 이유: 스피어만 상관계수는 주로 비선형적이고 단조적인 관계를 평가하기 위한 방법이므로, "선형적인 관계도 측정이 가능하다"라는 설명은 본래 목적과 다릅니다.
    • 3. 피어슨 상관계수와 스피어만 상관계수는 0과 1 사이의 값을 가진다.
      • 설명: 피어슨 상관계수와 스피어만 상관계수 모두 값이 -1에서 +1 사이입니다. 0과 1 사이가 아닙니다.
    • 4. 피어슨 상관계수는 두 변수를 순위로 변환하여 그 순위 간의 스피어만 상관계수를 계산한다.
      • 설명:  피어슨 상관계수 자체는 원래 데이터를 그대로 사용하여 선형 관계를 평가하지만, 데이터를 순위로 변환한 후에는 그 순위를 기반으로 스피어만 상관계수를 계산할 수 있습니다.
      • 적절한 이유: 피어슨 상관계수가 아닌 스피어만 상관계수가 순위를 사용하여 계산된다는 점을 고려하면, 이 설명은 적절합니다.

07. 다음 중 데이터의 정규성을 확인하기 위한 방법으로 부적절한 것은?

① Anderson-Darling test

② Q-Q plot

③ Shapiro-Wiks test

④ Durbin-Watson

 

해설

  • 정규성(Normality)이란?
    • 정규성은 데이터가 정규분포(Normal Distribution)를 따르는지 여부를 나타냅니다. 많은 통계 분석 기법은 데이터가 정규분포를 따른다는 가정을 기반으로 하기 때문에, 데이터를 분석하기 전에 정규성을 확인하는 과정이 중요합니다.
  • 정규성을 확인하는 방법
    • 통계적 검정: 데이터를 기반으로 정규성을 검정하는 통계적 방법.
      • 예: Anderson-Darling test, Shapiro-Wilk test
    • 시각적 방법: 데이터를 시각적으로 표현하여 정규성을 확인하는 방법.
      • 예: Q-Q plot
  • 각 선택지 분석
    • 1. Anderson-Darling test
      • 설명: Anderson-Darling 검정은 데이터를 기반으로 정규성을 검정하는 통계적 방법입니다. 이 검정은 데이터가 정규분포를 따르는지 여부를 평가하는 데 사용되며, 특히 작은 표본에서도 유효한 결과를 제공합니다.
      • 적절한 이유: Anderson-Darling 검정은 정규성을 확인하는 대표적인 통계적 검정 방법입니다.
    • 2. Q-Q plot
      • 설명: Q-Q plot(Quantile-Quantile plot)은 데이터의 분포와 정규분포의 이론적인 분포를 비교하는 시각적 도구입니다. 데이터가 정규분포를 따른다면 Q-Q plot 상에서 점들이 대각선에 가깝게 위치하게 됩니다.
      • 적절한 이유: Q-Q plot은 정규성을 시각적으로 확인할 수 있는 대표적인 방법입니다.
    • 3. Shapiro-Wilk test
      • 설명: Shapiro-Wilk 검정은 정규성을 검정하는 또 다른 통계적 방법입니다. 이 검정은 주로 작은 표본에서 사용되며, 데이터가 정규분포를 따르는지 여부를 평가합니다.
      • 적절한 이유: Shapiro-Wilk 검정은 작은 표본에서 정규성을 확인할 수 있는 대표적인 통계적 검정 방법입니다.
    • 4. Durbin-Watson
      • 설명: Durbin-Watson 검정은 시계열 데이터에서 자기상관(Autocorrelation)을 확인하기 위한 통계적 방법입니다. 이 검정은 잔차(Residual) 간의 상관관계를 평가하며, 주로 회귀 분석에서 사용됩니다. Durbin-Watson 검정은 데이터의 정규성을 확인하기 위한 방법이 아닙니다.
      • 부적절한 이유: Durbin-Watson 검정은 자기상관을 확인하는 데 사용되며, 데이터의 정규성을 확인하기 위한 방법이 아닙니다.

08. 의사결정나무 모형의 학습 방법에 대한 설명 중 부족한 것은 무엇인가?

① 이익도표 또는 검정용 자료에 의한 교차타당성을 활용해 의사결정나무의 성능을 평가한다.

② 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받지 않으며, 각 분할은 최대한 순수하게 되도록 설계된다.

③ 각 노드에서의 최적 분리규칙은 분리변수의 선택과 분리기준에 따라 결정된다.

④ 가지치기는 모델 복잡도를 줄이고 일반화 능력을 향상시키기 위해 사용된다.

 

해설

  • 의사결정나무(Decision Tree)란?
    • 의사결정나무는 지도 학습(Supervised Learning) 기법 중 하나로, 분류(Classification)와 회귀(Regression) 문제를 해결하는 데 사용됩니다. 의사결정나무는 데이터를 여러 기준에 따라 나누면서 최종적으로 결과를 예측합니다. 각 노드는 특정 변수를 기준으로 데이터를 분할하며, 최종적으로 리프 노드(Leaf Node)에서 예측 결과를 도출합니다.
  • 주요 개념
    • 분리 규칙(Splitting Rule): 각 노드에서 데이터를 분리하는 기준을 설정합니다. 대표적인 분리 기준으로는 지니 지수(Gini Index), 정보 이득(Information Gain) 등이 있습니다.
    • 가지치기(Pruning): 모델이 너무 복잡해지면 과적합(overfitting)이 발생할 수 있습니다. 이를 방지하기 위해 불필요한 가지를 제거하는 과정이 가지치기입니다.
    • 교차타당성(Cross-Validation): 모델의 성능을 평가하기 위해 데이터를 여러 번 나누어 학습하고 검증하는 방법입니다.
  • 각 선택지 분석
    • 1. 이익도표 또는 검정용 자료에 의한 교차타당성을 활용해 의사결정나무의 성능을 평가한다.
      • 설명: 의사결정나무의 성능을 평가할 때, 교차타당성(Cross-Validation)을 사용하여 모델이 과적합되지 않도록 성능을 검증할 수 있습니다. 또한, 이익도표(Gain Chart)와 같은 시각적 도구를 통해 모델의 성능을 평가할 수 있습니다.
    • 2. 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받지 않으며, 각 분할은 최대한 순수하게 되도록 설계된다.
      • 설명: 의사결정나무에서 데이터의 분할은 이전 분할에 영향을 받습니다. 즉, 각 노드에서 이루어지는 분할은 이전 노드에서 이루어진 분할 결과에 따라 결정됩니다. 이는 트리 구조가 상위 노드부터 하위 노드로 이어지는 계층적 구조를 따르기 때문입니다.
      • 부적절한 이유: 의사결정나무는 상위 노드에서 이루어진 분할이 하위 노드에 영향을 미치므로, "이전 분할에 영향을 받지 않는다"는 설명은 부적절합니다.
    • 3. 각 노드에서의 최적 분리규칙은 분리변수의 선택과 분리기준에 따라 결정된다.
      • 설명: 의사결정나무에서 각 노드에서 데이터를 어떻게 나눌지를 결정하는 것은 주로 선택된 변수와 그 변수의 분리 기준(예: 지니 지수, 정보 이득)에 따라 결정됩니다.
    • 4. 가지치기는 모델 복잡도를 줄이고 일반화 능력을 향상시키기 위해 사용된다.
      • 설명: 가지치기는 모델이 너무 복잡해져서 과적합되는 것을 방지하기 위해 사용됩니다. 가지치기를 통해 불필요한 가지를 제거하면 모델이 더 단순해지고, 새로운 데이터에 대한 일반화 능력이 향상됩니다.

09. 오분류표(Confusion Matrix)를 활용한 평가 지표 중 모형의 완전성(Completeness)을 나타내는 지표는?

① F1 지표

② 정확도

③ 특이도

④ 재현율

 

해설

  • 1. F1 지표
    • 설명: F1 지표는 정밀도(Precision)와 재현율(Recall)의 조화 평균으로, 두 지표 간의 균형을 평가하는 데 사용됩니다. F1 지표는 정밀도와 재현율 간의 트레이드오프를 고려하여, 두 값이 비슷할 때 높은 값을 가집니다.
  • 2. 정확도 (Accuracy)
    • 설명: 정확도는 전체 예측 중에서 올바르게 예측된 비율을 나타냅니다. 즉, 정확도 = (TP + TN) / (TP + TN + FP + FN)입니다. 정확도는 모델이 얼마나 잘 예측했는지를 전체적으로 평가하는 지표입니다.
  • 3. 특이도 (Specificity)
    • 설명: 특이도는 실제로 음성인 데이터 중에서 모델이 음성으로 정확하게 예측한 비율을 나타냅니다. 즉, 특이도 = TN / (TN + FP)입니다. 이는 주로 음성 데이터를 얼마나 잘 구분하는지 평가할 때 사용됩니다.
  • 4. 재현율 (Recall)
    • 설명: 재현율은 실제 양성 데이터 중에서 모델이 양성으로 정확하게 예측한 비율을 나타냅니다. 즉, 재현율 = TP / (TP + FN)입니다. 이는 모델이 얼마나 많은 실제 양성을 놓치지 않고 예측했는지를 평가하며, 모형의 완전성(Completeness)을 나타냅니다.
    • 적절한 이유: 재현율은 실제 양성 중에서 모델이 놓친 것을 최소화하려고 할 때 중요한 지표로, 모형의 완전성을 나타냅니다.

10. 계층정 군집분석을 위해 거리 계산을 수행할 때 사용하는 dist 함수에서 지원하는 거리 측도로 부적절한 것은?

① 유클리디안 거리

② 코사인 유사도

③ 바이너리 거리

④ 캔버라 거리

 

해설

  • 문제 분석
    • R의 dist() 함수는 거리 계산을 수행하는 함수로, 주로 계층적 군집분석(Hierarchical Clustering)에서 사용됩니다. 이 함수는 다양한 거리 측도를 지원하지만, 모든 유사도/거리 측정 방법을 지원하지는 않습니다. 따라서, 이 문제에서는 dist() 함수에서 지원하지 않는 거리 측도를 찾는 것이 목표입니다.
  • 각 선택지 분석
    • 1. 유클리디안 거리 (Euclidean Distance)
      • 설명: 유클리디안 거리는 두 점 사이의 직선 거리를 나타내며, 가장 일반적으로 사용되는 거리 측정 방법 중 하나입니다. R의 dist() 함수에서 기본적으로 지원되는 거리 측도입니다.
    • 2. 코사인 유사도 (Cosine Similarity)
      • 설명: 코사인 유사도는 두 벡터 간의 각도를 기반으로 유사성을 측정하는 방법입니다. 이는 주로 벡터의 방향에 초점을 맞추며, 텍스트 분석 등에서 자주 사용됩니다. 그러나 R의 dist() 함수는 코사인 유사도를 직접적으로 지원하지 않습니다.
    • 3. 바이너리 거리 (Binary Distance)
      • 설명: 바이너리 거리는 이진형(0/1) 데이터를 비교할 때 사용되는 거리 측정 방법입니다. 이는 R의 dist() 함수에서 지원되는 거리 측도 중 하나입니다.
    • 4. 캔버라 거리 (Canberra Distance)
      • 설명: 캔버라 거리는 두 점 사이의 차이를 각 점의 절대값으로 나누어 계산하는 방법으로, 특히 값이 0에 가까울 때 민감하게 반응하는 특성이 있습니다. 이는 R의 dist() 함수에서 지원되는 거리 측도입니다.

11. 거리를 이용하여 데이터 간 유사도를 측정할 수 있는 척도는 데이터의 속성과 구조에 따라 적합한 것을 사용해야 한다. 다음 중 유사도 측도에 대한 설명으로 부적절한 것은? 

① 유클리드 거리는 두 점 사이의 직선 거리를 측정한다.

② 맨하튼 거리는 각 축을 따라 이동한 거리의 합으로 계산된다.

③ 표준화 거리는 변수의 표준편차를 고려하여 계산된다.

④ 마할라노비스 거리는 변수 간 상관관계를 고려하지 않고 계산된다.

 

해설

  • 1. 유클리드 거리 (Euclidean Distance)
    • 설명: 유클리드 거리는 두 점 사이의 직선 거리를 측정하는 방법입니다. 이는 가장 기본적인 거리 측정 방법 중 하나로, 두 점 사이의 좌표 차이를 제곱한 후 그 합의 제곱근을 구하는 방식으로 계산됩니다.
  • 2. 맨하튼 거리 (Manhattan Distance)
    • 설명: 맨하튼 거리는 두 점 사이의 거리를 각 좌표 축을 따라 이동한 거리의 합으로 계산합니다. 이는 마치 도시의 블록을 따라 이동하는 것과 같기 때문에 "맨하튼 거리"라고 불립니다.
  • 3. 표준화 거리 (Standardized Distance)
    • 설명: 표준화 거리는 각 변수의 표준편차를 고려하여 계산됩니다. 데이터가 서로 다른 단위를 가지고 있거나 스케일이 다를 때, 변수들을 표준화하여 거리를 계산하는 것이 중요합니다. 예를 들어, Z-점수(Z-score)를 사용하여 데이터를 표준화한 후 유클리드 거리를 계산할 수 있습니다.
  • 4. 마할라노비스 거리 (Mahalanobis Distance)
    • 설명: 마할라노비스 거리는 변수 간의 상관관계를 고려하여 두 점 사이의 거리를 측정하는 방법입니다. 이는 데이터가 서로 상관관계가 있을 때, 단순한 유클리드 거리보다 더 정확하게 거리를 측정할 수 있습니다.

12. 임의적인 모양의 군집 탐색에 가장 효과적인 군집화 방법은?

① 밀도기반 군집

② 계층적 군집

③ 격자기반 군집

④ 커널기반 군집

 

해설

  • 임의적인 모양이란, 비선형적이고 비정형적인 형태의 군집을 의미합니다. 즉, 군집이 원형이나 타원형과 같은 단순한 모양이 아닐 때, 이를 잘 탐색할 수 있는 군집화 방법을 선택해야 합니다.
  • 각 선택지 분석
    • 1. 밀도기반 군집 (Density-Based Clustering)
      • 설명: 밀도기반 군집화 방법은 DBSCAN과 같은 알고리즘을 사용하여, 데이터 포인트가 밀도가 높은 지역에 속하는지를 기준으로 군집을 형성합니다. 이 방법은 임의적인 모양의 군집을 탐색하는 데 매우 효과적입니다. 특히, 비정형적이고 복잡한 모양의 군집을 잘 찾아내며, 노이즈를 처리하는 데도 강력합니다.
      • 적절함: 밀도기반 군집화는 임의적 모양의 군집 탐색에 매우 효과적입니다.
    • 2. 계층적 군집 (Hierarchical Clustering)
      • 설명: 계층적 군집화는 데이터를 계층적으로 분할하거나 병합하여 트리 구조를 형성하는 방법입니다. 단일 연결법(Single Linkage) 같은 방법은 임의적인 모양의 군집을 어느 정도 탐색할 수 있지만, 일반적으로 밀도기반 방법보다는 덜 효과적입니다.
      • 덜 적절함: 계층적 군집은 임의적인 모양의 군집을 탐색할 수 있지만, 밀도기반 방법에 비해 덜 효과적입니다.
    • 3. 격자기반 군집 (Grid-Based Clustering)
      • 설명: 격자기반 군집화는 데이터를 격자로 나누고 각 격자 내에서 데이터를 분석하여 군집을 형성하는 방식입니다. 이는 주로 공간 데이터에서 사용되며, 정해진 격자 구조에 의존하기 때문에 임의적인 모양의 군집을 탐색하는 데는 적합하지 않습니다.
      • 부적절함: 격자기반 군집화는 임의적인 모양보다는 정형화된 공간에서 더 적합합니다.
    • 4. 커널기반 군집 (Kernel-Based Clustering)
      • 설명: 커널기반 군집화는 데이터 간의 비선형 관계를 고려하여 고차원 공간에서 선형적으로 분리 가능한 형태로 변환한 후에 군집화를 수행하는 방법입니다. 이는 복잡한 패턴을 다룰 수 있지만, 임의적인 모양의 데이터를 다루는 데 있어서는 밀도기반 방법보다 덜 직관적일 수 있습니다.
      • 덜 적절함: 커널기반 군집은 비선형 관계를 다루지만, 임의적인 모양보다는 다른 목적에 더 적합할 수 있습니다.

13. k-평균 군집에서 이상값에 대한 민감도를 줄이기 위해 사용되는 대체 방법은?

① 중앙값 기반 군집

② 최대값 기반 군집

③ 조화 평균 기반 군집

④ 가중 평균 기반 군집

 

해설

  • 문제 분석
    • K-평균 군집(K-Means Clustering)은 각 군집의 중심을 평균으로 계산하는 방식입니다. 그러나 K-평균 군집은 이상값(Outliers)에 민감합니다. 이상값이 포함되면, 평균이 왜곡되어 군집의 중심이 잘못 계산될 수 있습니다. 이를 해결하기 위해, 이상값에 덜 민감한 대체 방법이 사용됩니다.
  • 각 선택지 분석
    • 1. 중앙값 기반 군집
      • 설명: 중앙값 기반 군집(K-Medoids Clustering)은 K-평균 군집의 대안으로, 각 군집의 중심을 중앙값(Median)으로 계산합니다. 중앙값은 이상값에 덜 민감하기 때문에, K-평균 군집보다 이상값에 대한 민감도가 낮습니다.
      • 적절함: 중앙값 기반 군집은 이상값에 대한 민감도를 줄이기 위한 대표적인 방법입니다.
    • 2. 최대값 기반 군집
      • 설명: 최대값은 데이터에서 가장 큰 값을 의미하며, 이를 중심으로 군집을 형성하는 방식은 일반적으로 사용되지 않습니다. 최대값은 이상값일 가능성이 크기 때문에, 이를 중심으로 한 군집화는 오히려 이상값에 더 민감해질 수 있습니다.
      • 부적절함: 최대값 기반 군집화는 일반적으로 사용되지 않으며, 이상값에 대한 민감도를 줄이는 데 적합하지 않습니다.
    • 3. 조화 평균 기반 군집
      • 설명: 조화 평균은 주로 비율을 다룰 때 사용되는 평균 계산 방식입니다. 그러나 조화 평균을 사용한 군집화는 일반적으로 잘 알려진 방법이 아니며, 이상값에 대한 민감도를 줄이는 데도 적합하지 않습니다.
      • 부적절함: 조화 평균 기반 군집은 일반적인 대체 방법이 아니며, 이상값 처리와 관련이 없습니다.
    • 4. 가중 평균 기반 군집
      • 설명: 가중 평균은 각 데이터 포인트에 가중치를 부여하여 계산하는 방법입니다. 이는 특정 데이터 포인트에 더 큰 영향을 줄 수 있지만, 이상값 처리와는 직접적인 관련이 없습니다.
      • 부적절함: 가중 평균 기반 군집도 일반적인 대체 방법이 아니며, 이상값 처리와 관련성이 적습니다.