python을 통한 주식 관련 정보 추출 (1)

Python

monstro 2024. 3. 3. 18:54

728x90

이 포스팅에서는 Python을 통한 웹사이트의 정보 추출 방법을 알려드리겠습니다.

웹사이트의 정보를 뽑아오기 위해서는

BS4(Beautiful Soup 4) 라이브러리를 사용합니다.

위의 라이브러리는 HTML이나 XML 구조에서 필요한 데이터를 뽑기 위해 사용하는 라이브러리 입니다.

따라서 사용하는 개발환경에 맞춰 위의 라이브러리를 설치해주셔야 합니다.

정보를 추출하기 위한 과정은 다음과 같습니다.

그러면 지금부터 시작해보겠습니다.

1) url 찾기

일단 네이버 금융 사이트로 이동합니다

네이버페이 증권

국내 해외 증시 지수, 시장지표, 뉴스, 증권사 리서치 등 제공

finance.naver.com

이 중에서 아무 종목이나 들어가보면,

위와 같이 기본적인 url은

https://finance.naver.com/item/main.naver?

로 구성되어 있지만,

뒤에 code=숫자가 붙음으로써 회사를 분류한다는 점을 알게 되었습니다.

따라서 우리는 url에 찾고자 하는 회사의 숫자를 붙임으로써 그 회사의 주식정보를 알아낼 수 있게 되었습니다.

다시 종목 사이트로 들어가보겠습니다.

간단하게 위 사진에서 바로 볼 수 있는 데이터들인,

매매가, 회사명을 사용해 보겠습니다.

따라서 위 2가지의 정보를 추출하겠습니다.

728x90