공부를 끄적끄적/데이터분석

L.point 빅데이터 공모전에 참가하다.

공돌이J 2019. 1. 6. 10:48


L.point Big Data Competition.


엘포인트 공모전이라고 불리는 빅데이터 분석 공모전에 참가했다. 


사실 데이터 분석이라고 해봐야 학교 데이터마이닝 수업 때 공부한 내용과 R을 이용해서 정말 간단한 모델을 만들어 본 정도인데 어쩌다 보니 마음 맞는 선후배와 함께 공모전에 참가하게 되었다.


사실 내가 지금까지 주로 해왔던 것들은 웹개발과 데이터베이스 모델링, 그리고 약간의 딥러닝과 머신러닝 정도이기 때문에 데이터 분석을 열심히 공부해온 다른 팀들보다는 여러모로 열세일 것은 분명하지만 도전하게 된 이유는 수업시간에 배웠던 내용을 실제로 사용해보고 싶었기 때문이다.


교수님의 수업은 핵심적인 개념을 짚어주시며 우리가 이해가 잘 될 수 있도록 구성하셨고 팀 프로젝트를 통해 우리가 주제를 정해서 데이터를 구하고, 정제하고, 분석하는 기회도 가질 수 있었다. 


하지만 수업시간에 사용했던 데이터는 한 개의 csv 파일로 구성되어 있었으며 row도 많아봐야 1000개 정도에 전처리도 다 되어있는 상태였다. 그저 csv 데이터를 불러와서 (심지어 기본으로 설치되어 있는) 라이브러리의 함수에 파라미터를 넣으면 데이터 분석이 끝났다. 


그렇기 때문에 우리의 실력이 어느정도인지 공모전을 통해 객관적으로 확인해 보기 위해서 야심차게 지원하였으나 미천한 실력으로 인해 삽질하느라 아직 EDA조차 제대로 못마친 상황이다...


그래서 지금이라도 우리 팀이(특히 내가) 삽질했던 것을 잊지 않기 위해 블로그에 기록을 하며 진행하려고 한다. 주로 내가 맡은 데이터 엔지니어링쪽 이야기가 될 것이며, 간간히 데이터 분석 방법론들에 대해서 다루려고 한다.