본문 바로가기

개발일지

스파르타 코딩클럽 개발일지 3주차 크롤링

 

처음 시작은 request(요청) 

 

import request

 

requests.get('www.naver.com')안에 url을 넣어서 사용

 

"나 네이버에 너네 html자료좀 쓸께"

 

 

import request

from bs4 import BeautifulSoup

 

data = requests.get('url')

soup = BeautifulSoup(data.text, 'html.parser')

 

이건 그냥 세트라고 생각하면된다.

 

import request

from bs4 import BeautifulSoup

 

# 타겟 URL을 읽어서 HTML를 받아오고,
headers = {''}
data = requests.get('url')

 

# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
# soup이라는 변수에 "파싱 용이해진 html"이 담긴 상태가 됨
# 이제 코딩을 통해 필요한 부분을 추출하면 된다.

 

soup = BeautifulSoup(data.text, 'html.parser')

 

 

 

---------------------------------------------------------------------------------------------------------------------

 

import requests from bs4 import BeautifulSoup

 

# URL을 읽어서 HTML를 받아오고,

 

headers = {'}

data = requests.get('')

 

# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦

 

soup = BeautifulSoup(data.text, 'html.parser')

 

# select를 이용해서, tr들을 불러오기

 

movies = soup.select('')

 

# movies (tr들) 의 반복문을 돌리기

for movie in movies:

 

# movie 안에 a 가 있으면,

a_tag = movie.select_one('')

if a_tag is not None:

 

# a의 text를 찍어본다.

 

print (a_tag.text)

 

lstrip - 왼쪽에 있는 공백 제거

rstrip - 오른쪽에 있는 공백 제거 

strip - 왼쪽 오른쪽에 있는 공백 제거 

 

이번 과제는 강의들으면서 천천히 해보니 해냈다. 신난다.

 

과연 내가 더 끝까지 잘할 수 있을까 ~ 잘하고싶다,.................

 

 

친구추천

https://spartacodingclub.kr/?f_name=%EC%A0%84%EC%84%A0%ED%9D%AC&f_uid=5f6f2e6fbd68a6000932a9b8