from bs4 import BeautifulSoup
# HTML 파일을 읽어 들이고 BeautifulSoup 객체를 생성합니다.
with open('full_book_list.html') as f:
soup = BeautifulSoup(f, 'html.parser')
# find_all() 메서드로 a 요소를 추출하고 반복을 돌립니다.
for a in soup.find_all('a'):
# href 속성과 글자를 추출합니다.
print(a.get('href'), a.text)
'[업무 지식] > Crawling' 카테고리의 다른 글
[RSS 스크레이핑] feedparser로 RSS 스크레이핑하기 (0) | 2024.12.31 |
---|---|
[RSS 스크레이핑] feedparser 이해하기 (0) | 2024.12.31 |
[Beautiful Soup] 이해하기 (0) | 2024.12.31 |
[lxml] lxml로 스크레이핑 (0) | 2024.12.31 |
[lxml] lxml 기본 사용법 이해 (1) | 2024.12.31 |