기본적인 파이썬 개발 환경을 만들고 나서 파이썬 코드를 만지작거리면서 문법을 익혀갔다.
클래스를 선언 안해도 되네?
타입을 선언 안해도 되네?
중괄호가 없어도 되네?
들여쓰기가 문법이네?
...
개발언어라는 게 사실 그렇게까지 차이가 나는 건 아닌데다가 파이썬 코드가 자바보다는 압도적으로 쉬웠기에 금방 익힐 수 있었다. 그 즈음 PL님이 나를 불렀고 내가 해야할 일을 일러주었다.
이 홈페이지 크롤링해서 자료를 모아보라고. 크롤링이 뭔지 몰랐지만 일단은 '..네!'라고 대답했다.
수행 불가능한 걸 시키진 않았을테니.
우선 구글링부터 시작했다.
크롤링은 웹페이지의 정보를 긁어와서 데이터로 정리하는 것 정도인 듯했다.
파이썬으로 크롤링을 하라고 했으니 파이썬 크롤링을 검색해보았다. 그러자 여러가지 알 수 없는 단어들이 쏟아졌다.
셀레니움, 크롬드라이버, 뷰티풀스프, 동적 크롤링, 정적 크롤링, request, get, post 등등. 하나씩 차근 차근 해나가는 수 밖에 없었다.
우선 머릿속에서 내가 해야할 일의 순서도를 그려보았다.
PL님이 원하는 건 게시판에서 게시물 제목과 제공기관, 태그, 수정일등을 뽑아내서 엑셀로 정리하여 제공하는 것이었다.
그러니 순서도는 이렇게 된다.
- 게시판이 있는 웹페이지를 연다.
- 웹페이지의 게시물을 조회한다.
- 게시물의 내용들을 복사한다.
- 엑셀에 넣는다.
- 게시물 페이지에서 뒤로가기를 눌러서 게시판으로 돌아간다
- 다음 게시물을 누른다
- 반복
- 만약 게시판 페이지의 게시물을 모두 조회했다면 게시판 다음장으로 넘어간다
물리적으로 하는 일만 따진다면 웹브라우저를 통해서 손으로 일일이 하는 것도 가능은 했다.
게시물의 갯수가 엄청나게 많지만 않다면 말이다. 당연히 데이터를 정리하는데 데이터가 적을 수는 없는 법이었다.
적은 데이터 정리라면 굳이 개발자를 쓸 필요도 없을테니 말이다.
코딩을 하기로 결정했다면 순서도를 따라가면서 필요한 코드를 익혀나가면 될 뿐이었다.
옆에는 든든하게 구글님께서 물어보는 것마다 답변해주기로 되어 있으니 두려울 건 없었다.
'파이썬' 카테고리의 다른 글
파이썬 - 웹페이지 정보를 본다는 건? (0) | 2022.01.19 |
---|---|
파이썬 - 몰라도 시작하자 (0) | 2022.01.18 |
파이썬 - 공부 계기 (0) | 2022.01.07 |
ATM(백준11399) (0) | 2021.05.14 |
설탕 배달(백준2839) (0) | 2021.05.12 |