01. 숫자, 문자, 논리연산자가 모두 포함된 벡터의 형식으로 적절한 것은?
- null형 벡터
- 수치형 벡터
- 논리형 벡터
- 문자형 벡터
해설
- R에서 벡터는 동일한 데이터 타입의 값들이 나열된 1차원 데이터 구조입니다. 이 문제는 숫자, 문자, 논리연산자가 모두 포함된 벡터의 형식을 묻고 있습니다. 이를 이해하기 위해 각 선택지와 관련된 벡터의 특성을 살펴보겠습니다.
- 1. null형 벡터
- null형 벡터는 아무런 값을 가지지 않는 빈 벡터를 의미합니다. NULL은 R에서 값이 없음을 나타내며, 이는 빈 객체로 취급됩니다. NULL은 특정 데이터 타입을 가지지 않으며, 연산에 사용할 수 없습니다. 따라서 숫자, 문자, 논리연산자가 모두 포함된 벡터와는 관련이 없습니다.
- 오답 이유: NULL은 값이 없는 상태를 나타내며, 숫자나 문자, 논리값을 포함할 수 없습니다.
- 2. 수치형 벡터
- 수치형 벡터는 숫자 값들로만 이루어진 벡터입니다. R에서 수치형 벡터는 정수 또는 실수 값을 포함할 수 있으며, 산술 연산이 가능합니다. 예를 들어, c(1, 2, 3)은 수치형 벡터입니다
- 오답 이유: 수치형 벡터는 숫자만 포함하므로 문자나 논리 연산자를 함께 포함할 수 없습니다.
- 3. 논리형 벡터
- 논리형 벡터는 TRUE 또는 FALSE 값을 포함하는 벡터입니다. 논리 연산자나 조건문을 사용하여 생성되며, 예를 들어 c(TRUE, FALSE)와 같은 형태입니다
- 오답 이유: 논리형 벡터는 오직 TRUE, FALSE만 포함하므로 숫자나 문자를 함께 포함할 수 없습니다.
- 4. 문자형 벡터
- 문자형 벡터는 문자 데이터를 포함하는 벡터입니다. 예를 들어, c("a", "b", "c")와 같은 형태입니다. R에서는 서로 다른 데이터 타입을 하나의 벡터에 넣을 경우, 모든 값이 가장 일반적인 데이터 타입인 문자형으로 변환됩니다. 따라서 숫자와 논리값이 함께 포함된 경우에도 모두 문자로 변환되어 문자형 벡터가 됩니다.
- 1. null형 벡터
v <- c(1, "a", TRUE)
print(v)
# 출력: "1" "a" "TRUE"
02. 부스팅은 과적합을 해소하고 모형의 정확도를 높이는 방법 중 하나지만 속도가 느리다는 단점이 있다. 이를 개선하기 위한 알고리즘 중에서 leaf-wise 방법을 사용하는 것으로 적절한 것은?
- AdaBoost
- LGBM
- stacking
- XGBoost
해설
- 1. AdaBoost
- AdaBoost는 부스팅 기법 중 하나로, 약한 학습기(주로 얕은 결정 트리)를 순차적으로 학습시켜 성능을 향상시키는 방식입니다. 이때 각 반복마다 잘못 분류된 데이터에 가중치를 높여서 다음 학습기에 반영합니다. 그러나 트리 성장 방식에 있어서는 level-wise 방식을 따릅니다.
- 오답 이유: AdaBoost는 트리 성장 방식에서 leaf-wise를 사용하지 않습니다.
- 2. LGBM (LightGBM)
- LGBM은 부스팅 알고리즘 중 하나로, 특히 대용량 데이터를 빠르게 처리할 수 있도록 설계된 모델입니다. LGBM의 가장 큰 특징 중 하나는 leaf-wise 방식을 사용한다는 점입니다. 이 방식은 손실이 가장 큰 리프 노드를 우선적으로 확장하여 트리를 성장시키기 때문에, 기존의 level-wise 방식보다 더 효율적으로 손실을 줄일 수 있습니다. 다만, 데이터가 적을 경우 과적합의 위험이 있을 수 있습니다
- 정답 이유: LGBM은 leaf-wise 방식을 사용하여 트리를 확장하는 알고리즘입니다.
- 3. Stacking
- Stacking은 여러 모델의 예측 결과를 결합하여 최종 예측을 만드는 앙상블 기법입니다. 각 모델의 예측 결과를 메타 모델이 학습하여 최종 출력을 내놓습니다. 그러나 Stacking은 부스팅과는 다르며, 트리 성장 방식과 관련이 없습니다.
- 오답 이유: Stacking은 부스팅 알고리즘이 아니며, leaf-wise와 관련이 없습니다.
- 4. XGBoost
- XGBoost는 부스팅 알고리즘 중 하나로, Gradient Boosting 방식을 개선하여 더 빠르고 효율적인 학습을 제공합니다. XGBoost는 주로 level-wise 방식을 사용하여 트리를 확장합니다. 즉, 같은 깊이의 모든 노드를 동시에 확장하는 방식으로 트리를 균형 있게 성장시킵니다. 이는 과적합 방지에 유리하지만, leaf-wise 방식에 비해 속도가 느릴 수 있습니다.
- 오답 이유: XGBoost는 level-wise 방식을 사용하므로 leaf-wise와 관련이 없습니다.
- 정답: LGBM
- 추가 설명: R이나 Python에서 LightGBM을 사용할 때, leaf-wise 방식 덕분에 큰 데이터셋에서 빠른 속도로 학습할 수 있습니다. 하지만 데이터가 적으면 과적합될 가능성이 있으므로 주의해야 합니다.
03. Lasso 회귀 모형에 대한 설명으로 부적절한 것은?
- 람다 값으로 penalty의 정도를 조정한다.
- 회귀계수의 절댓값이 클수록 강한 penalty를 부여한다.
- 자동으로 변수를 선택하는 효과가 있다.
- L2 penalty를 사용한다.
해설
- Lasso 회귀란?
- 회귀 분석은 어떤 값을 예측하는 방법입니다. 예를 들어, 학생의 공부 시간과 시험 점수 사이의 관계를 알고 싶다고 할 때, 공부 시간을 입력하면 시험 점수를 예측할 수 있는 수식(모델)을 만드는 것이 바로 회귀 분석입니다.그런데 회귀 분석을 하다 보면 너무 많은 변수(예: 공부 시간, 잠자는 시간, 식사 시간 등)를 넣게 되는 경우가 있습니다. 이럴 때는 모델이 너무 복잡해져서 과적합이라는 문제가 발생할 수 있습니다. 과적합이란, 모델이 훈련 데이터에 너무 맞춰져서 새로운 데이터를 잘 예측하지 못하는 상황을 말합니다.
- Lasso 회귀의 역할
- Lasso 회귀는 이러한 문제를 해결하기 위해 사용되는 방법 중 하나입니다. Lasso는 불필요한 변수를 자동으로 제거하고, 중요한 변수만 남겨서 모델을 더 간단하게 만들어줍니다. 이때 Lasso는 L1 정규화라는 방법을 사용합니다.
- L1 정규화란?
- Lasso에서 사용하는 L1 정규화는 회귀 계수(즉, 변수의 중요도를 나타내는 숫자)에 패널티를 부여하는 방식입니다. 쉽게 말해, "너무 큰 숫자를 사용하지 마!"라고 경고하는 것입니다. 그래서 Lasso는 일부 계수를 아예 0으로 만들어버리기도 합니다. 이렇게 되면 그 변수는 모델에서 제외되어 자동으로 변수를 선택하는 효과가 생깁니다.
- 람다(λ) 값
- 중요한 것으로, 람다(λ)라는 값이 있습니다. 이 값은 패널티의 강도를 조절하는 역할을 합니다. λ가 크면 패널티가 커져서 더 많은 변수가 0으로 만들어지고, λ가 작으면 패널티가 약해져서 대부분의 변수가 남아있게 됩니다.
- 문제 설명
- 1. 람다 값으로 penalty의 정도를 조정한다.
- 설명: Lasso 회귀에서 λ 값은 패널티의 강도를 조절하는 중요한 역할을 합니다. λ가 클수록 더 많은 변수가 0으로 만들어지면서 모델이 단순해지고, λ가 작으면 대부분의 변수가 남아있습니다.
- 2. 회귀계수의 절댓값이 클수록 강한 penalty를 부여한다.
- 설명: Lasso는 계수(변수의 중요도를 나타내는 숫자)가 클수록 더 큰 패널티를 부여합니다. 그래서 계수가 큰 변수일수록 더 많이 줄어들고, 어떤 변수는 아예 0이 될 수도 있습니다.
- 3. 자동으로 변수를 선택하는 효과가 있다.
- 설명: Lasso는 불필요한 변수의 계수를 0으로 만들어서 그 변수를 자동으로 제거합니다. 그래서 중요한 변수만 남기고 나머지는 제외하는 효과가 있습니다.
- 4. L2 penalty를 사용한다.
- 설명: Lasso는 L1 패널티를 사용합니다. 반면에 다른 알고리즘인 Ridge 회귀에서는 L2 패널티를 사용합니다. L2 패널티는 계수들의 제곱합에 패널티를 주는 방식인데, Lasso와는 다르게 모든 변수가 0이 되지 않고 작아지기만 합니다.
- 추가 설명
- Lasso와 Ridge 회귀 모두 과적합을 방지하고 모델을 단순화하려고 사용되는 기법들이지만, 사용하는 패널티 방식이 다릅니다.
- Lasso: L1 패널티 → 불필요한 변수를 0으로 만들어 제거
- Ridge: L2 패널티 → 모든 변수를 작게 만들지만 0으로 만들지는 않음
- Lasso와 Ridge 회귀 모두 과적합을 방지하고 모델을 단순화하려고 사용되는 기법들이지만, 사용하는 패널티 방식이 다릅니다.
- 1. 람다 값으로 penalty의 정도를 조정한다.
04. 회귀모형의 통계적 유의성 확인 방법으로 적절한 것은?
- F-통계량을 확인한다.
- T-통계량을 확인한다.
- 결정계수를 확인한다.
- 왈드 검정을 수행한다.
해설
- 회귀 모형의 통계적 유의성이란?
- 회귀 분석은 어떤 변수(독립 변수)가 다른 변수(종속 변수)에 미치는 영향을 분석하는 방법입니다. 예를 들어, 공부 시간이 시험 점수에 어떤 영향을 미치는지 알고 싶다면, 공부 시간을 독립 변수로 하고 시험 점수를 종속 변수로 해서 회귀 분석을 할 수 있습니다.그런데, 회귀 분석을 통해 나온 결과가 정말로 의미 있는지 확인해야 합니다. 이때 사용하는 개념이 바로 통계적 유의성이에요. 통계적 유의성이 높다는 것은 "이 결과가 우연히 나온 것이 아니라 실제로 의미가 있다"는 뜻입니다.
- 통계적 유의성을 확인하는 방법
- 회귀 분석에서 통계적 유의성을 확인하는 방법에는 여러 가지가 있는데, 대표적으로 F-통계량과 T-통계량을 사용합니다. 이 값들을 통해 우리가 만든 회귀 모형이나 각 변수들이 정말로 의미 있는지를 판단할 수 있습니다.
- 문제 설명
- 1. F-통계량을 확인한다.
- 설명: F-통계량은 회귀 모형 전체가 통계적으로 유의미한지를 확인하는 데 사용됩니다. 여러 독립 변수가 종속 변수에 미치는 영향을 한꺼번에 평가할 때 F-검정을 사용합니다. F-통계량이 크고 p-값이 0.05보다 작으면, 이 회귀 모형은 통계적으로 유의하다고 판단할 수 있습니다.예시: 공부 시간과 잠자는 시간이 시험 점수에 영향을 미치는지 알고 싶다면, F-검정을 통해 이 두 변수가 시험 점수에 의미 있는 영향을 주는지 확인할 수 있습니다.
- 2. T-통계량을 확인한다.
- 설명: T-통계량은 개별 독립 변수가 종속 변수에 미치는 영향이 통계적으로 유의한지를 판단하는 데 사용됩니다. 즉, 각 독립 변수가 중요한지 아닌지를 확인하는 데 도움이 됩니다. T-통계량이 크고 p-값이 작으면 해당 변수는 종속 변수에 중요한 영향을 미친다고 볼 수 있습니다.예시: 공부 시간이 시험 점수에 중요한 영향을 미치는지 알고 싶다면 T-검정을 통해 그 중요성을 평가할 수 있습니다.
- 정답 여부: 적절한 설명입니다. T-통계량은 개별 변수의 유의성을 검정하는 데 사용됩니다.
- 3. 결정계수를 확인한다.
- 설명: 결정계수(R²)는 회귀 모형이 종속 변수의 변동을 얼마나 잘 설명하는지를 나타냅니다. 결정계수가 높으면 독립 변수가 종속 변수를 잘 설명하고 있다는 뜻입니다. 하지만 결정계수는 단순히 모델의 설명력을 나타낼 뿐, 이것만으로는 통계적 유의성을 평가할 수 없습니다.예시: 공부 시간과 잠자는 시간이 시험 점수에 얼마나 큰 영향을 미치는지는 결정계수를 통해 알 수 있지만, 이 값만으로는 결과가 우연인지 아닌지를 판단할 수 없습니다.
- 4. 왈드 검정을 수행한다.
- 설명: 왈드 검정(Wald test)은 주로 로지스틱 회귀나 일반화 선형 모델에서 사용되며, 특정 회귀 계수가 0인지 아닌지를 검증하는 방법입니다. 이는 개별 계수에 대한 가설 검정을 수행하지만, 일반적인 선형 회귀에서 전체 모형의 유의성을 평가하기 위한 방법은 아닙니다.예시: 로지스틱 회귀에서 특정 변수가 결과에 중요한 영향을 미치는지 알고 싶을 때 왈드 검정을 사용할 수 있습니다.
- 1. F-통계량을 확인한다.
05. 인공신경망의 활성화 함수는 여러 개의 값을 입력받아 하나의 값으로 변환한 뒤 함수를 통해 결괏값을 결정한다. 통상적인 활성화와 달리 다중 클래스 분류를 목적으로 사용 가능한 활성화 함수는 무엇인가?
- 소프트맥스 함수
- 아크탄젠트 함수
- 하이퍼볼릭 함수
- 시그모이드 함수
해설
- 활성화 함수란?
- 인공신경망은 사람의 뇌처럼 작동하는데, 여러 개의 입력을 받아서 그 입력을 처리하고 결과를 출력하는 과정이 있습니다. 이때 활성화 함수는 입력된 값들을 처리해서 출력 값을 결정하는 역할을 합니다. 예를 들어, 어떤 학생의 공부 시간과 잠자는 시간을 입력받아 시험 점수를 예측한다고 할 때, 이 입력값들을 적절히 계산하여 시험 점수를 예측하는 것이 활성화 함수의 역할입니다. 활성화 함수는 여러 개의 값을 받아서 하나의 값으로 변환해주는 중요한 역할을 하죠.
- 다중 클래스 분류란?
- 다중 클래스 분류는 여러 가지 선택지 중에서 하나를 선택하는 문제입니다. 예를 들어, 고양이, 강아지, 새 중에서 사진 속 동물이 무엇인지 맞추는 문제처럼 세 가지 이상의 선택지가 있는 경우를 말합니다. 이런 문제에서는 각 선택지에 해당할 확률을 계산해서 가장 높은 확률을 가진 선택지를 답으로 내놓습니다.
- 문제 설명
- 1. 소프트맥스 함수 (Softmax)
- 설명: 소프트맥스 함수는 다중 클래스 분류에서 가장 많이 사용하는 활성화 함수입니다. 여러 개의 입력값을 받아서 각 클래스(예: 고양이, 강아지, 새)에 속할 확률을 계산해줍니다. 소프트맥스 함수는 모든 입력값을 0과 1 사이의 값으로 변환하고, 이 값들의 합이 항상 1이 되도록 만들어줍니다. 즉, 각 클래스가 정답일 확률을 계산하는 데 적합한 함수입니다.예시: 고양이일 확률이 0.7, 강아지일 확률이 0.2, 새일 확률이 0.1이라면 소프트맥스 함수를 통해 이 확률들을 계산할 수 있습니다.
- 2. 아크탄젠트 함수 (Arctangent)
- 설명: 아크탄젠트 함수는 주로 수학적인 계산에서 사용되며, 신경망의 활성화 함수로는 거의 사용되지 않습니다. 이 함수는 출력 값을 -π/2에서 π/2 사이로 제한하지만, 다중 클래스 분류와 관련된 확률값을 계산하는 데 적합하지 않습니다.예시: 아크탄젠트 함수는 각 클래스에 속할 확률을 계산해주지 않기 때문에 다중 클래스 분류에는 사용할 수 없습니다.
- 오답 이유: 아크탄젠트 함수는 다중 클래스 분류에서 사용되지 않으며, 확률값을 계산하는 기능도 없기 때문에 부적절합니다.
- 3. 하이퍼볼릭 탄젠트 함수 (Tanh)
- 설명: 하이퍼볼릭 탄젠트 함수(Tanh)는 출력 값을 -1과 1 사이로 변환하는 활성화 함수입니다. 주로 이진 분류나 회귀 문제에서 사용되며, 다중 클래스 분류에서는 적합하지 않습니다. 다중 클래스 분류에서는 각 클래스에 대한 확률값을 계산해야 하는데, Tanh 함수는 그런 역할을 하지 못합니다.
- 예시: Tanh 함수는 두 가지 선택지(예: 참/거짓) 중 하나를 고르는 문제에는 사용할 수 있지만, 여러 가지 선택지가 있는 다중 클래스 문제에는 적합하지 않습니다.
- 오답 이유: Tanh 함수는 다중 클래스 분류에서 확률값을 계산하는 데 적합하지 않으며, 주로 이진 분류나 회귀 문제에서 사용됩니다.
- 4. 시그모이드 함수 (Sigmoid)
- 설명: 시그모이드 함수는 출력 값을 0과 1 사이로 변환하여 확률로 해석할 수 있게 해주는 활성화 함수입니다. 그러나 시그모이드 함수는 주로 이진 분류 문제에서 사용됩니다. 다중 클래스 분류에서는 각 클래스에 대한 상대적인 확률을 계산해야 하는데, 시그모이드 함수는 이를 처리하기 어렵습니다.
- 예시: 시그모이드 함수를 통해 참/거짓 같은 두 가지 선택 중 하나를 고르는 문제에서는 사용할 수 있지만, 세 가지 이상의 선택지가 있는 문제에는 적합하지 않습니다.
- 오답 이유: 시그모이드 함수는 이진 분류에 적합하며, 다중 클래스 분류에서는 소프트맥스 함수를 사용하는 것이 더 적절합니다.
- 1. 소프트맥스 함수 (Softmax)
- 추가 설명
- 다중 클래스 분류 문제에서는 여러 개의 클래스를 구분해야 하므로, 각 클래스에 속할 확률을 계산하는 것이 중요합니다. 소프트맥스 함수는 입력값을 확률값으로 변환하고 그 합이 1이 되도록 정규화하여 각 클래스에 속할 가능성을 나타내기 때문에 다중 클래스 분류에 가장 적합한 활성화 함수입니다.
06. 목표변수가 이산형인 경우에는 지니 지수, 연속형인 경우에는 분산감소량을 사용하는 의사결정나무 알고리즘으로 적절한 것은?
- CART
- ID3
- C4.5
- CHAID
해설
- 의사결정나무란?
- 의사결정나무는 데이터를 여러 기준에 따라 나누면서 최종적으로 어떤 결정을 내리는 과정을 나무 모양으로 표현한 모델입니다. 예를 들어, 학생이 시험을 잘 볼지 못 볼지를 예측하는 모델을 만든다고 할 때, "공부 시간을 기준으로 먼저 나누고", "그다음 잠자는 시간을 기준으로 나누는" 식으로 데이터를 점점 세분화해가는 방식입니다.이때, 각 노드를 어떻게 나눌지 결정하는 것이 중요한데, 이때 사용하는 기준이 바로 지니 지수(Gini Index)나 분산 감소량(Variance Reduction) 같은 수치입니다.
- 목표 변수가 이산형일 때 vs 연속형일 때
- 이산형 변수: 값이 딱딱 구분되는 경우를 말합니다. 예를 들어, "합격/불합격", "고양이/강아지"처럼 선택지가 명확하게 나뉘는 경우입니다.
- 연속형 변수: 값이 연속적으로 나타나는 경우를 말합니다. 예를 들어, "시험 점수(0~100점)"처럼 값이 특정 범위 안에서 연속적으로 변할 수 있는 경우입니다.
- 지니 지수 vs 분산 감소량
- 지니 지수(Gini Index): 주로 이산형 변수를 처리할 때 사용됩니다. 각 데이터가 얼마나 잘 분류되었는지를 평가하는 기준입니다.
- 분산 감소량(Variance Reduction): 주로 연속형 변수를 처리할 때 사용됩니다. 분산은 데이터가 평균에서 얼마나 떨어져 있는지를 나타내는데, 이를 줄이는 것이 목표입니다.
- 문제 설명
- 1. CART (Classification and Regression Tree)
- 설명: CART 알고리즘은 이름 그대로 분류(Classification)와 회귀(Regression)를 모두 처리할 수 있는 알고리즘입니다. 목표 변수가 이산형일 때는 지니 지수(Gini Index)를 사용하고, 목표 변수가 연속형일 때는 분산 감소량(Variance Reduction)을 사용하여 데이터를 나눕니다.
- 예시: 학생의 합격 여부(이산형)를 예측할 때는 지니 지수를 사용하고, 시험 점수(연속형)를 예측할 때는 분산 감소량을 사용합니다.
- 2. ID3 (Iterative Dichotomiser 3)
- 설명: ID3 알고리즘은 주로 분류 문제에서 사용되며, 데이터를 나눌 때 정보 이득(Information Gain)을 기준으로 합니다. 정보 이득은 데이터가 얼마나 잘 분류되었는지를 측정하는 방법으로, 주로 이산형 데이터를 처리하는 데 적합합니다. 하지만 ID3는 연속형 목표 변수를 처리하는 데 적합하지 않습니다.
- 예시: ID3는 학생의 합격 여부 같은 이산형 문제에는 사용할 수 있지만, 시험 점수 같은 연속형 문제에는 적합하지 않습니다.
- 오답 이유: ID3는 연속형 변수를 처리할 수 없으며, 정보 이득을 사용하므로 문제에서 요구하는 지니 지수나 분산 감소량을 사용하지 않습니다.
- 3. C4.5
- 설명: C4.5는 ID3의 개선된 버전으로, 이산형 데이터뿐만 아니라 연속형 데이터도 처리할 수 있습니다. 하지만 C4.5는 데이터를 나눌 때 정보 이득 비율(Gain Ratio)이라는 기준을 사용합니다. 이는 정보 이득의 단점을 보완한 것이지만, 여전히 지니 지수나 분산 감소량과는 다른 방식입니다.
- 예시: C4.5도 다양한 문제에 사용할 수 있지만, 문제에서 요구하는 지니 지수나 분산 감소량을 사용하지 않습니다.
- 오답 이유: C4.5는 정보 이득 비율을 사용하며, 문제에서 요구하는 지니 지수나 분산 감소량은 사용하지 않으므로 부적절합니다.
- 4. CHAID (Chi-squared Automatic Interaction Detector)
- 설명: CHAID 알고리즘은 주로 카이제곱 검정(Chi-square test)을 기반으로 데이터를 나누며, 회귀 문제에서는 F-검정을 사용합니다. CHAID는 다중 노드로 나눌 수 있는 장점이 있지만, 역시 지니 지수나 분산 감소량은 사용하지 않습니다.
- 예시: CHAID는 카이제곱 검정을 통해 변수 간의 상관관계를 분석하지만, 문제에서 요구하는 방식과 다릅니다.
- 오답 이유: CHAID는 카이제곱 검정과 F-검정을 사용하며, 지니 지수나 분산 감소량과 관련이 없으므로 부적절합니다.
- 1. CART (Classification and Regression Tree)
07. 연관 규칙에서 후보빈발집합을 생성하지 않고 연관 규칙을 발견하도록 고안된 알고리즘으로 적절한 것은?
- DHP
- DIANA
- FP-Growth
- Apriori 알고리즘
해설
- 연관 규칙과 후보 빈발 집합이란?
- 연관 규칙(Association Rule)은 데이터에서 항목 간의 관계를 찾는 방법입니다. 예를 들어, "빵을 산 사람은 우유도 살 확률이 높다" 같은 규칙을 찾는 것이죠. 이때 빈발 집합(Frequent Itemset)이란, 자주 함께 나타나는 항목들의 집합입니다. 일반적으로 후보 빈발 집합(Candidate Itemset)을 먼저 생성한 후, 그 중에서 실제로 빈발한 항목들을 찾아내는 방식으로 연관 규칙을 만듭니다. 하지만 일부 알고리즘은 이 과정을 생략하고 더 효율적으로 연관 규칙을 찾습니다.
- 문제 설명
- 1. FP-Growth (Frequent Pattern Growth)
- 설명: FP-Growth는 후보 빈발 집합을 생성하지 않고, 대신 FP-트리(Frequent Pattern Tree)라는 데이터 구조를 사용하여 연관 규칙을 발견하는 알고리즘입니다. 이 알고리즘은 데이터를 두 번만 스캔하여 트리를 만들고, 그 트리를 기반으로 빈발 패턴을 찾아냅니다. 따라서 후보 집합을 생성하는 과정 없이 빠르게 연관 규칙을 찾을 수 있습니다.
- 예시: FP-Growth는 데이터를 트리 구조로 변환한 후, 그 트리를 순회하면서 자주 발생하는 항목들의 조합을 찾아냅니다.
- 2. DHP (Direct Hashing and Pruning)
- 설명: DHP는 Apriori 알고리즘의 변형으로, 해시 테이블을 사용하여 후보 빈발 집합의 크기를 줄이는 방식으로 동작합니다. 즉, DHP는 여전히 후보 빈발 집합을 생성하며, 그 크기를 줄이는 데 초점을 맞추고 있습니다.
- 예시: DHP는 해시 테이블을 사용하여 후보 항목들의 개수를 줄이고, 이를 통해 효율적으로 빈발 항목들을 찾아냅니다.
- 오답 이유: DHP는 여전히 후보 빈발 집합을 생성하므로, 문제에서 요구하는 조건에 맞지 않습니다.
- 3. DIANA (Divisive Analysis Clustering)
- 설명: DIANA는 클러스터링 알고리즘으로, 데이터를 여러 그룹으로 나누는 데 사용됩니다. 이는 연관 규칙이나 빈발 항목 집합과는 관련이 없습니다.
- 예시: DIANA는 데이터를 여러 그룹으로 나누어 유사한 항목들을 묶어주는 클러스터링 기법입니다.
- 오답 이유: DIANA는 클러스터링 알고리즘으로, 연관 규칙이나 후보 빈발 집합과 관련이 없으므로 부적절합니다.
- 4. Apriori 알고리즘
- 설명: Apriori 알고리즘은 가장 기본적인 연관 규칙 탐사 알고리즘 중 하나로, 단계별로 후보 빈발 집합을 생성하고 이를 확인하는 방식으로 동작합니다. 즉, 1-항목집합에서 시작해 2-항목집합, 3-항목집합 등 점차 큰 항목집합들을 만들어가며 그 중에서 자주 등장하는 항목들을 찾습니다.
- 예시: Apriori 알고리즘은 먼저 1-항목집합의 후보를 만들고, 그 중에서 자주 등장하는 항목들을 찾아낸 후 이를 기반으로 2-항목집합의 후보를 만듭니다.
- 오답 이유: Apriori 알고리즘은 후보 빈발 집합을 생성하므로 문제에서 요구하는 조건에 맞지 않습니다.
- 1. FP-Growth (Frequent Pattern Growth)
08. 다음 표를 통해 구한 향상도(A->B)로 적절한 것은?
A | 20 |
B | 30 |
C | 10 |
A, B, C | 40 |
전체 거래 수 | 100 |
- 4/3
- 20/3
- 2/5
- 20/21
해설
- 향상도(A->B)를 구하는 공식은 {(A, B 동시 포함 거래수) * (전체 거래수)} / {(A 포함 거래수) * (B 포함 거래수)}
- (40 * 100) / (60 * 70) = 20/21
09. 두 확률변수 X와 Y의 공분산에 대한 설명으로 부적절한 것은?
- 두 변수 사이의 선형관계를 측정한다.
- 데이터를 표준화하지 않아 변수 사이 관계의 강도를 확인할 수 없다.
- 공분산의 범위는 -1 <= cov(X, Y) <= 1이다.
- 공분산을 통해 변수 사이 관계의 방향을 확인할 수 있다.
해설
- 공분산(Covariance)이란?
- 공분산은 두 확률변수 X와 Y가 함께 변하는 정도를 측정하는 값입니다. 즉, 두 변수가 얼마나 선형적으로 관련되어 있는지를 나타냅니다. 공분산이 양수면 두 변수가 같은 방향으로 움직이고, 음수면 서로 반대 방향으로 움직입니다. 공분산이 0이면 두 변수 사이에 선형 관계가 없다는 의미입니다.
- 공분산의 주요 특징
- 두 변수 사이의 선형 관계를 측정합니다. 공분산은 두 변수가 함께 변하는 정도를 나타내므로, 이 값이 양수면 두 변수는 같은 방향으로 움직이고, 음수면 반대 방향으로 움직습니다.
- 공분산은 단위에 의존적입니다. 즉, 데이터가 표준화되지 않으면 공분산 값만으로는 두 변수 사이의 관계 강도를 비교하기 어렵습니다.
- 공분산의 값은 특정한 범위에 제한되지 않으며, 그 값은 -∞에서 +∞까지 가능합니다. 따라서 공분산의 범위는 -1에서 1 사이가 아닙니다. 이는 상관계수와 혼동해서는 안 됩니다.
- 공분산을 통해 변수 간 관계의 방향을 확인할 수 있습니다. 양수면 같은 방향, 음수면 반대 방향으로 움직인다는 것을 알 수 있습니다.
- 문제 설명
- 1. 두 변수 사이의 선형관계를 측정한다.
- 설명: 공분산은 두 변수 사이의 선형 관계를 측정합니다. 양수일 때는 같은 방향으로, 음수일 때는 반대 방향으로 움직인다는 것을 의미합니다.
- 2. 데이터를 표준화하지 않아 변수 사이 관계의 강도를 확인할 수 없다.
- 설명: 공분산은 데이터가 표준화되지 않으면 단위에 따라 값이 달라지기 때문에, 그 값만으로는 변수 간 관계의 강도를 비교하기 어렵습니다.
- 3. 공분산의 범위는 -1 <= cov(X, Y) <= 1이다.
- 설명: 공분산의 값은 -∞에서 +∞까지 가능합니다. -1에서 1 사이로 제한되는 것은 상관계수(Correlation Coefficient)입니다. 상관계수는 공분산을 표준화한 값이기 때문에 -1에서 1 사이로 제한되지만, 공분산 자체는 그렇지 않습니다.
- 오답 이유: 공분산은 상관계수가 아니므로 그 범위가 -1에서 1 사이로 제한되지 않습니다.
- 4. 공분산을 통해 변수 사이 관계의 방향을 확인할 수 있다.
- 설명: 공분산이 양수면 두 변수가 같은 방향으로 움직이고, 음수면 반대 방향으로 움직인다는 것을 알 수 있습니다.
- 1. 두 변수 사이의 선형관계를 측정한다.
- 추가 설명
- 공분산 자체는 -∞에서 +∞까지 값을 가질 수 있으며, 그 범위가 -1에서 1로 제한되는 것은 상관계수입니다.
10. 다음 중 군집분석의 평가 지표로 응집도와 분리도를 계산하며 그 값이 1에 가까울수록 완벽하게 분리되었다고 판단하는 지표는 무엇인가?
- 결정계수
- 자카드계수
- Mallow's CP
- 실루엣 계수
해설
- 군집 분석이란?
- 군집 분석은 데이터를 비슷한 특성을 가진 그룹으로 나누는 방법입니다. 예를 들어, 여러 학생들의 성적 데이터를 가지고 비슷한 성적을 가진 학생들을 하나의 그룹으로 묶는 것이 군집 분석입니다. 군집 분석의 목표는 각 그룹 내에서는 데이터들이 서로 가깝게 모여 있고, 다른 그룹과는 명확히 분리되도록 하는 것입니다.
- 군집 분석의 평가 지표
- 군집 분석을 수행한 후, 그 결과가 얼마나 잘 되었는지를 평가하는 다양한 지표들이 있습니다. 그중에서 응집도(Cohesion)와 분리도(Separation)라는 개념이 자주 사용됩니다.
- 응집도는 같은 군집 내에서 데이터들이 얼마나 가까이 모여 있는지를 나타냅니다.
- 분리도는 서로 다른 군집 간의 데이터들이 얼마나 멀리 떨어져 있는지를 나타냅니다.
- 실루엣 계수란?
- 실루엣 계수(Silhouette Coefficient)는 위에서 설명한 응집도와 분리도를 동시에 고려하여 군집화 결과를 평가하는 지표입니다. 실루엣 계수는 각 데이터가 속한 군집 내에서 얼마나 밀접하게 모여 있고, 다른 군집과는 얼마나 멀리 떨어져 있는지를 측정합니다.
- 실루엣 계수는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 군집화가 잘 되었다고 판단할 수 있습니다.
- 1에 가까울수록: 데이터가 잘 분리된 군집에 속해 있음.
- 0에 가까울수록: 데이터가 어느 군집에 속해야 할지 애매함.
- 음수: 데이터가 잘못된 군집에 속해 있음.
- 문제 설명
- 1. 결정계수
- 설명: 결정계수(R²)는 회귀 분석에서 모델이 데이터를 얼마나 잘 설명하는지를 나타내는 지표입니다. 이는 군집 분석과는 관련이 없습니다.
- 오답 이유: 결정계수는 회귀 분석에서 사용하는 지표로, 군집 분석의 응집도나 분리도를 계산하지 않습니다.
- 2. 자카드 계수
- 설명: 자카드 계수(Jaccard Index)는 두 집합 간의 유사성을 측정하는 지표로, 주로 이진 데이터에서 두 집합이 얼마나 겹치는지를 계산합니다. 이는 군집 간의 응집도나 분리도를 직접적으로 측정하지 않습니다.
- 오답 이유: 자카드 계수는 집합 간의 유사성을 측정하는 데 사용되며, 군집 분석의 응집도나 분리도를 평가하는 데 적합하지 않습니다.
- 3. Mallow's CP
- 설명: Mallow's CP는 회귀 모델의 성능을 평가하는 지표로, 변수 선택 과정에서 모델의 적합성을 평가할 때 사용됩니다. 이는 군집 분석과 관련이 없습니다.
- 오답 이유: Mallow's CP는 회귀 모델 평가에 사용되며, 군집 분석의 응집도나 분리도를 평가하지 않습니다.
- 4. 실루엣 계수
- 설명: 실루엣 계수는 각각의 데이터가 속한 군집 내에서 얼마나 밀접하게 모여 있고, 다른 군집과 얼마나 멀리 떨어져 있는지를 평가하는 지표입니다. 실루엣 계수가 1에 가까울수록 해당 데이터가 올바른 군집에 속해 있다는 것을 의미하며, 이는 응집도와 분리도를 모두 고려한 지표입니다.
- 오답 이유 없음: 실루엣 계수는 응집도와 분리도를 동시에 고려하며, 값이 1에 가까울수록 완벽하게 분리된 것으로 판단할 수 있습니다.
- 1. 결정계수
11. SOM에서는 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토타입 벡터를 선택한다. 다음 중 이때 선택된 프로토타입 벡터를 뜻하는 단어는 무엇인가?
- Best Matching Unit
- Closest Node
- Smilarity Vector
- Central Vector
해설
- Self-Organizing Map(SOM)과 Best Matching Unit(BMU)
- SOM은 고차원 데이터를 저차원으로 시각화하는 비지도 학습 알고리즘입니다. 주로 데이터를 군집화하거나 패턴을 찾는 데 사용되며, 입력 데이터와 가장 가까운 노드를 찾는 과정을 반복하면서 학습합니다. SOM에서 프로토타입 벡터는 각 노드의 가중치 벡터를 의미합니다. 새로운 입력 데이터가 들어오면, SOM은 모든 노드의 가중치 벡터와 입력 데이터 간의 거리를 계산하고, 그 중에서 가장 가까운 노드를 선택합니다. 이때 선택된 노드를 Best Matching Unit (BMU)라고 부릅니다.
- 문제 설명
- 1. Best Matching Unit (BMU)
- 설명: Best Matching Unit (BMU)는 SOM에서 입력 벡터와 가장 가까운 가중치 벡터를 가진 노드를 의미합니다. 즉, 입력 데이터와 가장 유사한 노드를 뜻하며, 이 노드가 선택되어 학습 과정에서 업데이트됩니다.
- 2. Closest Node
- 설명: "Closest Node"는 직관적으로 생각하면 입력 데이터와 가장 가까운 노드를 의미할 수 있지만, SOM에서는 공식적으로 Best Matching Unit (BMU)라는 용어를 사용합니다.
- 오답 이유: "Closest Node"는 SOM에서 사용하는 공식 용어가 아니며, BMU가 더 정확한 표현입니다.
- 3. Similarity Vector
- 설명: "Similarity Vector"는 두 벡터 간의 유사성을 나타내는 용어일 수 있지만, SOM에서는 입력 벡터와 가장 유사한 가중치 벡터를 가진 노드를 BMU라고 부릅니다.
- 오답 이유: "Similarity Vector"는 SOM에서 선택된 프로토타입 벡터를 의미하지 않습니다.
- 4. Central Vector
- 설명: "Central Vector"는 특정 중심점을 나타낼 수 있는 용어이지만, SOM에서 입력 벡터와 가장 유사한 노드는 BMU라고 부릅니다.
- 오답 이유: "Central Vector"는 SOM에서 사용되는 용어가 아니며, BMU가 더 적절한 표현입니다.
- 1. Best Matching Unit (BMU)
'[자격증] > ADsP 문제 풀이' 카테고리의 다른 글
[ADsP 문제풀이] 스파르타코딩클럽 오답 정리 (0) | 2024.11.01 |
---|---|
[3과목 예상문제] ADsP 오답 풀이 (3) | 2024.10.31 |
[39회 기출 변형 문제] (0) | 2024.10.27 |
[38회 기출 변형 문제] (0) | 2024.10.27 |
[37회 기출 변형 문제] (0) | 2024.10.25 |