[업무 지식]/Statistics

[분석 방법] 데이터 분석과 통계

에디터 윤슬 2024. 11. 11. 19:32

위치추정

  • 데이터의 중심을 확인하는 방법
data = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91]

# 평균값: np.mean()
mean = np.mean(data)

# 중앙값: np.median()
median = np.median(data)

print(f"평균: {mean}, 중앙값: {median}")

 

변이추정

  • 분산, 표준편차, 범위
variance = np.var(data)
std_dev = np.std(data)
data_range = np.max(data) - np.min(data)

print(f"분산: {variance}, 표준편차: {std_dev}, 범위: {data_range}")

데이터 분포 탐색

  • 히스토그램과 박스플롯
# 히스토그램
plt.hist(data, bins=5)
plt.title('histogram')
plt.show()

# 박스플롯
plt.boxplot(data)
plt.title('boxplot')
plt.show()

이진 데이터와 범주 데이터 탐색

  • 파이그림과 막대그래프
satisfaction = ['satisfaction', 'satisfaction', 'dissatisfaction', 
'satisfaction', 'dissatisfaction', 'satisfaction', 'satisfaction', 
'dissatisfaction', 'satisfaction', 'dissatisfaction']
satisfaction_counts = pd.Series(satisfaction).value_counts()

satisfaction_counts.plot(kind='bar')
plt.title('satisfaction distribution')
plt.show()

상관관계

study_hours = [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]
exam_scores = [95, 90, 85, 80, 75, 70, 65, 60, 55, 50]

# 상관계수 계산 함수: np.corrcoef()
# [0, 1] 첫 번째 행의 두 번째 값을 출력
correlation = np.corrcoef(study_hours, exam_scores)[0, 1]

print(f"공부 시간과 시험 점수 간의 상관계수: {correlation}")
공부 시간과 시험 점수 간의 상관계수: 1.0

plt.scatter(study_hours, exam_scores)
plt.show()

두 개 이상의 변수 탐색

data = {'TV': [230.1, 44.5, 17.2, 151.5, 180.8],
        'Radio': [37.8, 39.3, 45.9, 41.3, 10.8],
        'Newspaper': [69.2, 45.1, 69.3, 58.5, 58.4],
        'Sales': [22.1, 10.4, 9.3, 18.5, 12.9]}
df = pd.DataFrame(data)

sns.pairplot(df)
plt.show()

# heatmap 시각화
sns.heatmap(df.corr())

# 상관계수
df.corr()