머신러닝 4

[리뷰] 만들면서 배우는 파이토치 딥러닝: 바로 활용할 수 있는 딥러닝

서론 정말 많은 딥러닝 기초 책들이 출간되고 있습니다. 딥러닝의 열풍에 따라 문이과 할 것 없이 시작하기에 초급자를 위한 책이 필요한 것은 맞지만, 나오는 책들의 수준이 사람들의 전반적인 수준이 올라가는 것을 따라가지 못하는 것 같은 느낌을 받았습니다. 입문 이후의 책들이 많이 나오지 않는다면 모든 사람들을 초보자에 머물게 되는 상황이 만들어질 것입니다. 당연히 비숍 교수님의 Pattern Recognition and Machine Learning이나 다른 유명한 바이블들이 존재하지만, 석박사급 연구가 아니라 가볍게 입문하고자 하는, 혹은 실무에서 사용하기 위한 분들은 그정도의 책을 원하지는 않을 것입니다. 심지어 그 책들은 코드조차 없기 때문에 코딩에 약하다면 이해는 하더라고 구현을 못하는 경우가 반드..

나는 AI를 좋아하지 않는다.

들어가며 이 제목은 많은 어그로와 악성 댓글을 불러올 수도 있지만, 내가 가지고 있는 AI와 데이터 분석에 대한 가장 근본적인 생각이다. 빠르게 발전하는 AI 분야에서 2년 전은 호랑이 담배씹던 시절이라고 여겨지고, 지금의 나는 데이터분석 필드에서 일하지도 않지만(...어쩌다 보니 데이터 분야 연구는 하고있다.) 데이터 분석에 발을 담가보았던, 그리고 빅데이터 시대의 흐름에 휩쓸려 가던 사람1의 이야기라고 생각해 주면 좋겠다. 덧붙이자면, 이 글에서는 수리적 이론이 뒷받침되는 SVM과 같은 모델이 아닌, 신경망을 위주로 서술했다. AI와 머신러닝 등 다양한 용어들이 혼용되지만, 그들이 주로 가리키는 것은 신경망 모델이라는 것을 밝힌다. 좋아하지 않는다면서 왜 했나. 학부 특성상 많은 진로의 길을 방황하던..

내 이야기 2021.08.03

[리뷰]파이썬과 대스크(Dask)를 활용한 고성능 데이터 분석

[Data Science with Python and Dask] 데이터 분석 강의를 수강할 때 하는 분석 과제의 수준과 현업에서의 분석 수준은 확연하게 다릅니다. 더 많은 Feature들이 존재하고, 결측치가 많고, (실무자가 아닌 경우에는) Feature가 의미하는 것이 무엇인지 정확하게 알지 못하는 등 교육용 데이터에는 존재하지 않는 많은 불확실성들이 분석 난이도를 높이게 됩니다. 결정적으로 데이터의 규모가 노트북 단위에서 처리하기 어려운 경우가 많습니다. 데이터셋 종류 크기 범위 RAM에 적당한가? 하드디스크에 적당한가? 작은 데이터셋 2GB-4GB 네 네 중간 데이터셋 2TB 이하 아니오 네 큰 데이터셋 2TB 이상 아니오 아니오 위의 표는 리뷰한 책에서 데이터셋에 대해 정의한 내용을 발췌한 것입..

NLP에서의 전처리 방법 (상)

0. Introduction 본 시리즈는 텍스트 마이닝은 전공 수업 때 간단하게 들은게 전부인 예비 대학원생이 챗봇 과제에 투입되어 고군분투하는 이야기를 담았습니다. 틀린 부분을 알려주시거나 더 자세하게 다루었으면 하는 내용, 그리고 제가 생각하지 못한 새로운 의견은 언제나 환영합니다. 본 시리즈는 빠르게 NLP 실전 프로젝트에 참여할 수 있도록 개념을 빠르게 잡아주는 것을 목표로 하며, 이를 위해 필요한 지식과 실무에 바로 사용할 수 있을 정도의 예제 코드를 제공하고자 합니다. 목차는 다음과 같습니다. NLP에서의 전처리 방법 (상/하) NLP에서 사용하는 모델과 방법론 결과 분석 및 성능 향상 1. NLP에서의 전처리 방법 자연어 데이터를 처음 다루어 본다면, 우리가 흔히 보던 데이터의 모습과 많이 ..