데이터분석 6

나는 AI를 좋아하지 않는다.

들어가며 이 제목은 많은 어그로와 악성 댓글을 불러올 수도 있지만, 내가 가지고 있는 AI와 데이터 분석에 대한 가장 근본적인 생각이다. 빠르게 발전하는 AI 분야에서 2년 전은 호랑이 담배씹던 시절이라고 여겨지고, 지금의 나는 데이터분석 필드에서 일하지도 않지만(...어쩌다 보니 데이터 분야 연구는 하고있다.) 데이터 분석에 발을 담가보았던, 그리고 빅데이터 시대의 흐름에 휩쓸려 가던 사람1의 이야기라고 생각해 주면 좋겠다. 덧붙이자면, 이 글에서는 수리적 이론이 뒷받침되는 SVM과 같은 모델이 아닌, 신경망을 위주로 서술했다. AI와 머신러닝 등 다양한 용어들이 혼용되지만, 그들이 주로 가리키는 것은 신경망 모델이라는 것을 밝힌다. 좋아하지 않는다면서 왜 했나. 학부 특성상 많은 진로의 길을 방황하던..

내 이야기 2021.08.03

[리뷰] 데이터 스토리: 상사에게 이쁨받는 의사소통 능력 기르기

서론 "우리가 보는 데이터는 정제되지 않은 날 것이다." 데이터, 데이터, 데이터, 하루에도 수십번씩 듣는 이야기에 우리는 피로감을 느끼곤 합니다. 그만큼 수많은 종류와 엄청난 크기의 데이터가 이 세상에 존재하고, 지금도 쌓여가고 있기 때문에 데이터에 근거한 많은 이야기들을 듣게 됩니다. 그렇지만, 데이터를 사용한 모든 문서들이 합리적이거나 논리적이지는 않습니다. 데이터라는 최소한의 근거자료를 통해 신빙성이 부여될 뿐, 작성한 사람의 역량에 따라 그 데이터가 제대로 활용되지 못하는 경우가 다반수이기 때문입니다. 특히 데이터 시대에 들어오며 아직 기존의 프레젠테이션 혹은 보고 방식에서 벗어나지 못한 사람들은 물밀듯이 들어오는 데이터의 홍수 속에서 어떻게 효율적으로 표현해야 할지 갈피를 잡기 어려울 것입니다..

[리뷰] 고성능 파이썬 - 빅데이터 시대의 파이썬 제대로 활용하기

서문 파이썬은 느린 언어입니다. 개발자가 타입 지정을 하지 않도록 하고, 메모리도 관리하지 않게 하며, 컴파일도 하지 않게 하는 대신 성능과 메모리 측면에서 많은 부분을 희생했습니다. 하지만 그러한 성능적인 이슈에도 불구하고 그 누구도 파이썬이 '좋지 않은' 언어라고 하지는 않을 것입니다. 성능을 약간 희생한 대신 생산성과 가독성, 그리고 편리함을 얻었기 때문입니다. 파이썬 덕분에 프로그래밍에 입문하여 개발을 시작하기도 하고 머신러닝과 딥러닝에 대한 접근성을 크게 높혀 누구나 데이터를 분석하고 인사이트를 얻을 수 있는 환경을 얻게 되었습니다. 하지만 개인적으로는, 정말 나이브하게 소스 코드를 작성한다면 그 어떤 프로그래밍 언어보다 느려질 수 있는 언어가 파이썬이라고 생각합니다. 특히 간단한 프로그램을 작..

우아한 사이파이, 엔지니어를 위한 강력한 무기

사실 Scipy는 문서화가 매우 잘 되어있는 라이브러리에 속한다. 그 말은 Scipy 라이브러리를 찾아보면 그 구현체에 대한 설명과 수식, 튜토리얼까지 모두 갖추어져 있기 때문에, 이 라이브러리를 사용하기 위해 책을 찾아보는 것 보다 문서를 보는 것이 더 도움이 될 수 있다는 이야기이다. (아무래도 책은 2차 가공이 되어 있기 때문에 라이브러리를 개발한 사람의 의도가 왜곡될 여지가 존재한다.) 위 이미지는 이 책에서 다루는 내용 중 일부인 Optimization에 대한 Scipy 문서의 일부이다. Rosenbrock Function에 대하여 최소값을 구하는 방법에 대한 구현과 Simplex Method에 대한 설명이 잘 기술되어 있다. 그래서 지금까지 연구나 프로젝트를 하면서 문서만 보면서 FFT나 Op..

[리뷰]파이썬과 대스크(Dask)를 활용한 고성능 데이터 분석

[Data Science with Python and Dask] 데이터 분석 강의를 수강할 때 하는 분석 과제의 수준과 현업에서의 분석 수준은 확연하게 다릅니다. 더 많은 Feature들이 존재하고, 결측치가 많고, (실무자가 아닌 경우에는) Feature가 의미하는 것이 무엇인지 정확하게 알지 못하는 등 교육용 데이터에는 존재하지 않는 많은 불확실성들이 분석 난이도를 높이게 됩니다. 결정적으로 데이터의 규모가 노트북 단위에서 처리하기 어려운 경우가 많습니다. 데이터셋 종류 크기 범위 RAM에 적당한가? 하드디스크에 적당한가? 작은 데이터셋 2GB-4GB 네 네 중간 데이터셋 2TB 이하 아니오 네 큰 데이터셋 2TB 이상 아니오 아니오 위의 표는 리뷰한 책에서 데이터셋에 대해 정의한 내용을 발췌한 것입..

R교과서 - Learning R Programming

책 소개 데이터 사이언스와 컴퓨터 사이언스가 많은 이목을 받으며 최근에 출간되는 많은 책들이 '문과생도 할 수 있는 프로그래밍', 'n주만에 마스터하는 파이썬' 등의 자극적이고 흥미를 부르는 표현을 이용하며 독자를 유치하고 있습니다. 프로그래밍을 처음 시작하는 친구에게 책을 추천해 주기 위해 서점에서 흥미로운 제목의 책을 몇권 읽어 보았는데, '독자가 이 책을 다 읽고 스스로 무언가를 할 수 있을까?'라는 생각이 드는 책들이 많았습니다. 그런 책들은 공통적으로 내용을 쉽게 설명하기 위해 비유와 추상화 된 개념을 이용하여 내용을 전달하고 있었고, 내부적으로 그 코드가 어떻게 동작되는지에 대한 내용은 독자들이 어려워 하기 때문에 넘어가며, 흥미로운 프로젝트를 한줄씩 따라해보며 만들어보는 내용을 가지고 있는 ..