import sys
import ssl
from urllib.request import urlopen
ssl._create_default_https_context = ssl._create_unverified_context
f = urlopen('https://www.hanbit.co.kr/store/books/full_book_list.html')
# HTTP 헤더를 기반으로 인코딩 방식을 추출합니다(명시돼 있지 않을 경우 utf-8을 사용하게 합니다).
encoding = f.info().get_content_charset(failobj="utf-8")
# 인코딩 방식을 표준 오류에 출력합니다.
print('encoding:', encoding, file=sys.stderr)
# 추출한 인코딩 방식으로 디코딩합니다.
text = f.read().decode(encoding)
# 웹 페이지의 내용을 표준 출력에 출력합니다.
print(text)
# HTML 파일로 저장
output_file = 'dp.html'
with open(output_file, 'w', encoding='utf-8') as file:
file.write(text)
print(f'HTML 파일이 "{output_file}"로 저장되었습니다')
'[업무 지식] > Crawling' 카테고리의 다른 글
[RSS 파싱] XML(RSS) 스크레이핑 (0) | 2024.12.31 |
---|---|
[스크레이핑] 정규 표현식으로 스크레이핑 (0) | 2024.12.31 |
[문자 코드 다루기] meta 태그에서 인코딩 방식 추출하기 (0) | 2024.12.31 |
[Selenium] 경기도 주유소 데이터 (0) | 2024.11.24 |
[Beautiful Soup] chicago sandwiches (6) | 2024.11.21 |