[lxml] lxml로 스크레이핑

import lxml.html

# HTML 파일을 읽어 들이고, getroot() 메서드로 HtmlElement 객체를 생성합니다.
tree = lxml.html.parse('full_book_list.html')
html = tree.getroot()

# cssselect() 메서드로 a 요소의 리스트를 추출하고 반복을 돌립니다.
for a in html.cssselect('a'):
    # href 속성과 글자를 추출합니다.
    print(a.get('href'), a.text)

'[업무 지식] > Crawling' 카테고리의 다른 글

[Beautiful Soup] Beautiful Soup로 스크레이핑하기 (0)	2024.12.31
[Beautiful Soup] 이해하기 (0)	2024.12.31
[lxml] lxml 기본 사용법 이해 (1)	2024.12.31
[Request] 웹 페이지 간단하게 추출하기 (0)	2024.12.31
[스크레이핑 흐름] 파이썬으로 스크레이핑하는 흐름 (0)	2024.12.31

데이터 분석 조각모음

[lxml] lxml로 스크레이핑

'[업무 지식] > Crawling' 카테고리의 다른 글

티스토리툴바

[lxml] lxml로 스크레이핑

'[업무 지식] > Crawling' 카테고리의 다른 글

관련글

티스토리툴바