본문 바로가기
반응형

개발 Tools/파이썬_Webcrawling2

webcrawling (웹크롤링) 네이버 기사 (시간, 타이틀, 링크) 크롤링 ( find, find_all, attrs, a["href"]) 이번엔 여러 회사의 최신 뉴스를 검색해서 링크를 적는 일이 주어졌다 그래서 간단히 크롤링을 이용하여 만들어보았다. (첫 페이지만 끌어온다) 라이브러리 먼저 필요한 라이브러리를 불러온다 import requests from bs4 import BeautifulSoup 2개의 라이브러리 밖에 사용하지 않는다. 뉴스에 검색할 키워드 리스트에 담기 네이버 뉴스의 검색했을 때 url을 먼저 보겠다 url = https://search.naver.com/search.naver?query={검색 키워드}&where=news&ie=utf8&sm=nws_hty 이런 식으로 돼 있다. query="검색 키워드" 라 반복문을 사용하여 여러 검색 키워드를 볼까 한다. 이번에는 ["삼성", "sk하이닉스", "토스", "카카오.. 2021. 7. 13.
webcrawling(웹 크롤링) 기본 (requests, headers, get(), raise_for_status(), beautifulsoup ) 웹 크롤링이란, 웹사이트를 구성하는 HTML을 가져오는 것이다. 그리고 그 안에서 원하는 정보를 가져올 수 있다. 차근차근해보겠다. 라이브러리 import 먼저 크롤링에 필요한 라이브러리는 "requests"이다 import requests 객체 생성 이렇게 필요한 라이브러리를 불러 왔다. 다음은 객체를 생성하는 게 당연한 순서이다. 객체란, 형태를 가진 뭔가를 만든다고 생각하면 된다. 한번 출력까지 해보겠다. res = requests.get("http://naver.com") print(res) 출력 res라는 객체를 생성했다. 우린 get() 함수를 써서 네이버 홈 화면의 HTML 코드를 가져왔다. get() 안에 내가 원하는 주소를 적어준다. 그런데 출력이 "" 이라는 이상한 출력문이 나왔다. 이.. 2021. 7. 13.