빅데이터 시대의 데이터 리터러시
데이터 리터러시는 ‘Data’와 ‘Literacy’의 합성어로 데이터를 읽고 이해하고 분석하는 것은 물론 비판적으로 수용하고 활용하는 능력을 뜻합니다. 과거에는 경험과 연륜이 쌓여야 비즈니스에 필요한 인사이트를 얻을 수 있었고, 이를 활용에 기업의 수익을 도모할 수 있었습니다. 그러나 데이터가 폭발적으로 늘어나는 빅데이터 시대에는 데이터에 적절하게 접근하는 능력, 데이터를 빠르게 가져오는 능력, 가져온 데이터를 업무에 필요한 형태로 변형하는 능력, 이를 적절한 형태로 시각화해 대내외적으로 공유하는 능력을 필요로 합니다. 따라서 이제는 경력이 많다는 게 언제나 능사인 시대는 지났습니다. 업무 경력이 짧더라도 데이터를 다루는 능력이 있다면, 유용한 정보를 도출해 기업과 자신의 이익을 도모할 수 있습니다.

주식, 부동산 등 인터넷 정보를 요리하는 자동화 기술, 웹 크롤링
웹 크롤링은 데이터 리터러시가 필요한 빅 데이터 시대에 꼭 필요한 비즈니스 기술입니다. 이미 개발자가 아닌 일반인들도 주식이나 부동산과 같은 정보를 웹, 앱에서 수집해 자신의 재테크나 업무에 적극적으로 활용하고 있습니다. 서점가에서는 주식 자동 매매 시스템을 어떻게 만드는지, 퀀트 투자를 어떻게 하는지 알려주는 책들이 이미 스테디셀러로 자리잡은지 오래입니다. 웹 크롤링은 이런 데이터 활용 분야의 기반이 되는 기술로 일반 사용자에게 폭넓게 받아들여지고 있으며, 활용 분야도 다양해지고 있습니다.
처음 만나는 웹 크롤링 입문서
이 책은 웹 크롤링 기술에 대한 안내서이자 입문서입니다. 그동안 파이썬이라는 언어와 크롤링의 난해한 코드로 고개를 떨구었던 독자에게, 크롤링 기술은 누구나 쉽게 배울 수 있다는 것을 알려주는 책입니다. 파이썬을 전혀 모른다고요? 크롤링에 꼭 필요한 내용 중심으로 파이썬을 공부하도록 구성하였습니다
이 책은 입문자도 쉽게 따라올 수 있도록 밑바닥부터 차근차근 세 가지 크롤링 기술의 개념과 방법을 단계적으로 학습하도록 돕습니다. BeautifulSoup 라이브러리를 이용한 파싱, 동적 웹 페이지를 다루는 Selenium 라이브러리, 그리고 오픈 데이터를 활용하는 API 기술이 그것입니다. 처음 접하는 분에게는 무척 어려운 내용처럼 느껴지지만, 실제로 실습을 통해 구현하면 그리 어려운 기술이 아닙니다. 이 책을 통해 기술들을 하나하나 내것으로 만들어가게 됩니다.
크롤링은 물론 데이터 분석까지
더 나아가 이 책에서는 크롤링한 데이터를 활용하는 여러 가지 방법도 함께 배웁니다. 데이터를 제대로 가져왔어도 데이터를 내 업무에서 맞게 응용할 수 없다면 사실상 무용지물입니다. CSV 파일이나 엑셀 파일로 저장하기, 판다스 라이브러리의 데이터 프레임 형태로 변환하기, MySQL 데이터베이스 형태로 저장하기, 데이터를 시각화하기 등 크롤링한 데이터를 내 입맛에 맞게 변환하는 다양한 기법도 함께 배우게 됩니다.
이 책에서 다루는 핵심 내용들
- 크롤링에 필요한 파이썬 기본 문법
- 크롤링할 대상인 웹 사이트의 3가지 구성 요소(HTML, CSS, JavaScript)
- HTML 문서 파싱(BeautifulSoup 라이브러리)하기
- 동적 웹 페이지(Selenium 라이브러리) 다루기
- 오픈 API에 대한 개념 이해와 API 실습
- 판다스(pandas) 라이브러리를 이용해 데이터를 일목요연한 데이터로 변환하기
- 멧플롯립(matplotlib) 라이브러리를 이용해 데이터를 시각화하기
- 크롤링한 데이터를 CSV, 엑셀 파일로 저장하고 불러오기
- 크롤링 데이터를 MySQL 데이터베이스에 저장하기
- Slack 프로그램으로 실시간 전송하기
- 윈도우 스케줄러를 이용해 데이터 저장 자동화하기