본문 바로가기

분류 전체보기261

[recursive] Draw The Triangle 링크https://www.hackerrank.com/challenges/draw-the-triangle-1/problem Draw The Triangle 1 | HackerRankDraw the triangle pattern using asterisks.www.hackerrank.com 문제P(R) represents a pattern drawn by Julia in R rows. The following pattern represents P(5):Write a query to print the pattern P(20). 정답 1set @row_number = 21;select repeat('* ', @row_number := @row_number -1 )from information_schema.tab.. 2024. 12. 12.
[metric] 비즈니스 매트릭 기초 비즈니스 메트릭 이해회사의 운영 방식 및 전반적인 비즈니스 모델 이해주요 제품 및 서비스가 어떤 방식으로 수익을 창출하는지 파악B2B 또는 B2C 등 회사의 고객 대상 비즈니스 유형 확인다양한 매출 구조 분석 (특히 대기업의 경우)주요 매출원 및 제품별 수익 배분 구조 확인 - 매출이 어디서 나오는가 분석 및 이해반복 매출(MRR/ARR) 여부, 구독 모델 또는 광고 수익 모델 여부 등 분석MRR은 Monthly Recurring Revenue의 약자로, 구독이나 계약 중인 고객들로부터 매월 들어오는 돈ARR은 Annual Recurring Revenue의 약자로, 연간 반복 매출을 의미 비즈니스 문제 및 해결 방안 탐구 – 선택사항산업 내 주요 Data Science 문제 파악데이터를 기반으로 문제 해.. 2024. 12. 11.
[차트 고르기] 효과적인 차트 고르는 법 비교항목(Among item)품목당 2개 비교: 세로 막대형 차트다양한 카테고리: 차트 테이블다양한 카테고리: 바 차트적은 카테고리: 컬럼 차트시간(Over time)순환 데이터: 레이더 차트비순환 데이터: 라인 차트적은 카테고리: 컬럼 차트많은 카테고리: 라인 차트관계두 개의 변수: 산점도세 개 이상의 변수: 버블플롯분포단일 변수: 히스토그램(KDE Line)두 개의 변수: 산점도구성시간 변화(Changing Over Time)적은 기간상대적 차이가 중요할 때: 100% 스택바상대적 차이와 더불어 절대적 차이 함께: 스택바많은 기간상대적 차이가 중요할 때: 100% 영역 스택바상대적 차이와 더불어 절대적 차이 함께: 영역 스택바통계(Static)간단한 집계: 도넛차트합계 또는 뺄셈 누적: Waterfa.. 2024. 12. 11.
[Mann-Whitney U] 비모수 검정 Shapiro-Wilk 정규성 확인# t-검정 가정 #1. 종속변수는 연속형이고 정규분포를 따라야 함 -> shapiro-Wilk로 확인 / Q-Q플롯으로 시각적 확인 #2. 등분산성 검정 -> Levene 검정 #3. 독립성이어야 함 -> 남성, 여성 표본 추출로 해결# {'Male': 0, 'Female': 1}map_target = stat_df['Gender'].unique()mapping = {value: idx for idx, value in enumerate(map_target)}stat_df['Gender'] = stat_df['Gender'].map(mapping)# shapiro-Wilk 정규성 확인print('귀무가설:', '''데이터가 정규분포에서 추출되었다''').. 2024. 12. 10.
[날짜 그룹화] SQL Project Planning 링크https://www.hackerrank.com/challenges/sql-projects/problem SQL Project Planning | HackerRankWrite a query to output the start and end dates of projects listed by the number of days it took to complete the project in ascending order.www.hackerrank.com 문제정답select min(start_date), max(end_date)from ( select start_date, end_date, date_add(end_date, interval - row_nu.. 2024. 12. 3.
[모든 값 출력] Pandas DataFrame에서 모든 열의 값을 표시하려면 `pd.set_option()`을 사용하여 출력 설정을 조정할 수 있습니다. 이는 DataFrame의 열이 많아 기본적으로 생략되는 경우에 유용합니다. 다음은 모든 열을 표시하기 위한 방법입니다.모든 열 표시 설정1. 모든 열을 표시:   - `display.max_columns` 옵션을 사용하여 출력 시 모든 열이 보이도록 설정할 수 있습니다.import pandas as pd# 모든 열을 출력하도록 설정pd.set_option('display.max_columns', None)# 예제 DataFrame 출력print(df.head())2. 모든 행을 표시:   - `display.max_rows` 옵션을 사용하여 모든 행이 보이도록 설정할 .. 2024. 12. 1.
[MAX() over()] Challenges 링크https://www.hackerrank.com/challenges/challenges/problem Challenges | HackerRankPrint the total number of challenges created by hackers.www.hackerrank.com 문제Julia asked her students to create some coding challenges. Write a query to print the hacker_id, name, and the total number of challenges created by each student. Sort your results by the total number of challenges in descending order. If .. 2024. 11. 29.
[NETFLIX] Visualize 참고https://www.kaggle.com/code/joshuaswords/netflix-data-visualization/notebook Netflix Data VisualizationExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 라이브러리 호출import pandas as pdimport numpy as npfrom sklearn.preprocessing import StandardScalerfrom sklearn.cluster import KMeans, AffinityPropagationimport matplotlib.pyplot as plt.. 2024. 11. 28.
[Unstack] 데이터 재구조화 Unstack() 함수DataFrame이나 Series의 MultiIndex 레벨을 피벗하여 행 인덱스의 하나 이상의 레벨을 열 레이블로 변환기능레벨 피벗: unstack()의 주요 기능은 인덱스의 지정된 레벨을 열로 피벗하는 것입니다. 기본적으로 가장 안쪽 레벨(-1)을 피벗하지만, level 매개변수를 사용하여 원하는 레벨을 지정할 수 있습니다.결측값 처리: 언스택 과정에서 모든 인덱스 레벨 조합이 존재하지 않을 경우 결측값(NaN)이 발생할 수 있습니다. fill_value 매개변수를 사용하여 이러한 NaN 값을 특정 값으로 대체할 수 있습니다.정렬: sort 매개변수는 기본값이 True로, 결과 MultiIndex 열에서 레벨을 정렬할지 여부를 결정합니다.문법DataFrame.unstack(le.. 2024. 11. 28.
[scatterplot] 한번에 모든 컬럼 시각화 import matplotlib.pyplot as pltimport seaborn as snsdef get_scatter(df, target_column=None): """ 데이터프레임의 열들 간 산점도를 플롯합니다. 매개변수: - df: pandas DataFrame, 데이터를 포함한 데이터프레임 - target_column: str, 특정 타겟 열과 나머지 열 간의 산점도를 그릴 경우 지정 (기본값: None) """ columns = df.columns num_columns = len(columns) if target_column: # 특정 타겟 열과 나머지 열 간의 산점도만 생성 columns =.. 2024. 11. 27.
[히스토그램] 한번에 시각화하는 함수 작성 # 히스토그램 시각화def get_hist(df): import seaborn as sns num_columns = len(df.columns) rows = (num_columns // 5) + (num_columns % 5 > 0) plt.figure(figsize=(20, rows * 5)) for i, column in enumerate(df.columns): ax = plt.subplot(rows, 5, i + 1) sns.histplot(df[column], kde=True) plt.xlabel(column, fontsize=12) plt.tight_layout() plt.show()get_hist(df) 2024. 11. 27.
[Linear Regression] Boston Housing Data Data EDA 히스토그램으로 데이터 시각화plt.figure(figsize = (20, 15))plotnumber = 1for column in df: if plotnumber  scatterplot으로 데이터 시각화plt.figure(figsize=(20, 15))plotnumber = 1for column in df: if plotnumber  boxplot으로 데이터 시각화plt.figure(figsize=(20, 8))sns.boxplot(data = df, width=0.8)plt.show()선형회귀분석 전 데이터 처리X, y 선언X = 가격(MEDV) 제외한 모든 컬럼y = 가격X = df.drop(columns = 'MEDV', axis = 1)y = df['MEDV'] 정규화.. 2024. 11. 27.
[시계열분석] polyfit, propher 참고 도서https://m.yes24.com/Goods/Detail/57670268 파이썬으로 데이터 주무르기 - 예스24독특한 예제를 통해 배우는 데이터 분석 입문이 책은 누구나 한 권 이상 가지고 있을 파이썬 기초 문법책과 같은 내용이 아닌, 데이터 분석이라는 특별한 분야에서 초보를 위해 처음부터 끝까지m.yes24.com 라이브러리 호출import pandas as pdimport pandas_datareader.data as webimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')from prophet import Prophet from .. 2024. 11. 26.
[row index] Weather Observation Station 20 링크https://www.hackerrank.com/challenges/weather-observation-station-20/problem?isFullScreen=true Weather Observation Station 20 | HackerRankQuery the median of Northern Latitudes in STATION and round to 4 decimal places.www.hackerrank.com 문제A median is defined as a number separating the higher half of a data set from the lower half. Query the median of the Northern Latitudes (LAT_N) from STATION.. 2024. 11. 25.
[Selenium] 경기도 주유소 데이터 참고 도서https://m.yes24.com/Goods/Detail/57670268 파이썬으로 데이터 주무르기 - 예스24독특한 예제를 통해 배우는 데이터 분석 입문이 책은 누구나 한 권 이상 가지고 있을 파이썬 기초 문법책과 같은 내용이 아닌, 데이터 분석이라는 특별한 분야에서 초보를 위해 처음부터 끝까지m.yes24.com 라이브러리 호출import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.chrome.service impo.. 2024. 11. 24.
[범주형 인코딩] LabelEncoder, OnehotEncording 함수 정리def get_category(df): from sklearn.preprocessing import LabelEncoder, OneHotEncoder col = ['BLDG_NM'] le = LabelEncoder() oe = OneHotEncoder() for column in col: le.fit(df[column]) new_column = f'{column}_le' df[new_column] = le.transform(df[column]) # index reset df = df.reset_index() for column1 in col: # 원핫인코딩은 array 행렬로 만.. 2024. 11. 23.
[Scaler] StandardScaler, MinMaxScaler 정규화# 정규화def get_numeric_sc(df): from sklearn.preprocessing import StandardScaler, MinMaxScaler col_sdsc = ['column1', 'column2', 'column3'] col_mmsc = ['column1'] sd_sc = StandardScaler() mm_sc = MinMaxScaler() for column in col_sdsc: sd_sc.fit(df[[column]]) new_column = f'{column}_sdsc' df[[new_column]] = sd_sc.transform(df[[column]]) f.. 2024. 11. 22.
[2차원 배열 저장] for문 파이썬 300제 중 194번 문제https://wikidocs.net/78565 191 ~ 200.answer {margin-top: 10px;margin-bottom: 50px;padding-top: 10px;border-top: 3px solid LightGray;bo…wikidocs.net 문제data = [ [ 2000, 3050, 2050, 1980], [ 7500, 2050, 2050, 1980], [15450, 15050, 15550, 14900]]191번 문제의 결괏값을 result 이름의 리스트에 2차원 배열로 저장하라. 저장 포맷은 아래와 같다. 각 행에 대한 데이터끼리 리스트에 저장되어야 한다.>> print(result)[ [2000.28, 3050.427.. 2024. 11. 21.
[Beautiful Soup] chicago sandwiches 파이썬으로 데이터 주무르기 - 예스24독특한 예제를 통해 배우는 데이터 분석 입문이 책은 누구나 한 권 이상 가지고 있을 파이썬 기초 문법책과 같은 내용이 아닌, 데이터 분석이라는 특별한 분야에서 초보를 위해 처음부터 끝까지m.yes24.com 1. 웹 데이터 가져오는 Beautiful Soup 익히기import pandas as pdimport numpy as npfrom bs4 import BeautifulSouphtml 파일 읽기page = open('~~~.html', 'r').read()soup = BeautifulSoup(page, 'html.parser')print(soup.prettify())- open(): 지정된 경로에 있는 파일을 열어 내용을 읽습니다. - 첫 번째 인자: '파일.. 2024. 11. 21.
[서울시 안전도] 서울시 구별 범죄 발생과 검거율을 지표로 파이썬으로 데이터 주무르기https://github.com/PinkWink/DataScience GitHub - PinkWink/DataScience: 책) 파이썬으로 데이터 주무르기 - 소스코드 및 데이터 공개책) 파이썬으로 데이터 주무르기 - 소스코드 및 데이터 공개. Contribute to PinkWink/DataScience development by creating an account on GitHub.github.comhttps://m.yes24.com/Goods/Detail/57670268 파이썬으로 데이터 주무르기 - 예스24독특한 예제를 통해 배우는 데이터 분석 입문이 책은 누구나 한 권 이상 가지고 있을 파이썬 기초 문법책과 같은 내용이 아닌, 데이터 분석이라는 특별한 분야에서 초보를.. 2024. 11. 20.