jupyter notebook을 이용하여 북마크 크롤링을 한번 해볼 것이다.
우선적으로 jupyter notebook 을 아나콘다를 이용하여 설치를 먼저 하고 다음 과정을 실행하여야 한다.
자신의 북마크를 가져오는 것을 해볼 것이다.
크롬 브라우저에서 오른쪽 끝에 있는 점 3개짜리를 선택하고 북마크 -> 북마크 관리자로 들어가면 다음가 같은 페이지가 나온다.
위 그림처럼 페이지가 나오면 다시 오른쪽 3개점을 클릭하고 북마크 가져오기를 클릭하고 html 파일로 데이터를 일단 가져온다.
가져오면 다음가 같은 파일이 저장된다.
다음가 같은 내용을 가진 파일이 생성되게 된다.
다음 과정으로는 파이썬 코드를 생성을 할 것이다.
먼저 python 파일을 먼저 생성을 해준다.
그리고 Beautiful Soup 검색하여 wikipedia 사이트에 접속을 한다. en.wikipedia.org/wiki/Beautiful_Soup_(HTML_parser)
Beautiful Soup (HTML parser) - Wikipedia
Beautiful Soup is a Python package for parsing HTML and XML documents (including having malformed markup, i.e. non-closed tags, so named after tag soup). It creates a parse tree for parsed pages that can be used to extract data from HTML,[2] which is usefu
en.wikipedia.org
그 후 Code example에 있는 코드를 가져온다.
# Anchor extraction from HTML document
from bs4 import BeautifulSoup
from urllib.request import urlopen
with urlopen('https://en.wikipedia.org/wiki/Main_Page') as response:
soup = BeautifulSoup(response, 'html.parser')
for anchor in soup.find_all('a'):
print(anchor.get('href', '/'))
urlopen 은 url 을 가져오는 것이다.
BeautifulSoup을 이용하여 url 으 내용을 가져오는 것이다.
soup.find_all('a')는 가져온 파일에서 a 태그들만 가져온다는 것이고 anchor.get('href', '/')을 이용하여 각 하이퍼링크를 가져온다.
그 후 이 코드를 아까 만들었던 파일 입력을 한다.
다음과 같이 입력을 하면 된다.
여기서 with urlopen('https://en.wikipedia.org/wiki/Main_Page') as response:
부분을 변경하여 사용할 것이다.
이전 코드에 대해서 이해하는데 어려움이 있을 수 있다. 따라서 다음과 변경하여 사용하면 더욱 쉽게 이해할 수 있다.
실행을 하였을 때 오류가 발생하게 되면 보통은 모듈이 설치되어 있지 않아서 일 것이다. 오류에 따라서 해당 모듈을 검색을 통하여 설치를 하면 된다.
그 후 정상적으로 실행하면 다음가 같은 내용이 출력된다.
wikipedia 내용을 가져오게 되는데 urlopen 부분의 경로를 변경하면 자신이 원하는 페이지에 대해서 내용을 가져올 수 있다.
여기서 이전에 만들었던 북마크를 파일을 경로로 지정하여 출력한다.
그러면 북마크 하였던 파일들이 출력될 것이다.
파이썬을 이용하여 크롤링을 하여 북마크를 가져오는 작업을 해보았다.
'python' 카테고리의 다른 글
python psutil 을 이용한 성능 측정 (0) | 2023.01.08 |
---|---|
python bytes to GB,MB,KB or G,M,Kbps 단위로 변환 함수 (0) | 2023.01.07 |
댓글