목록BigData/Python (4)
ASAP 개발

[튜토리얼] Ch01 CSV파일과 데이터프레임 비정형데이터 -Unstructured Data -문서,동영상,사진,음성등의 형태를 저으이할 수 없는 데이터 -정형 데이터를 다루는 RDB에서 활용이 불가능 함 정형데이터 -Structured Data -열과 행을 정리하여 일목요연하게 표로 만들 수 있는 데이터 -정형데이터를 다루기 위해 관계형 데이터 베이스(RDB:Relational DataBase)가 할용되기도 함 -정형 데이터를 파일로 변환할 경우 두가지 파일형태로 만들 수있음 -CSV(Comma Separated Values) -TSV(Tab Separated Values) ↑메모장으로도 CSV파일을 만들수 있다. 이렇게 행과 열로 구별된 2차원 데이터를 판다스에서는 데이터 프레임 이라고 부른다. sh..

Lv1 모델링 1/6 python 파이썬 scikit-learn scikit-learn 이란? python을 대표하는 머신러닝 라이브러리이다. 오픈소스로 누구나 무료로사용이 가능하며 현재에도 꾸준히 개발이 이루어지고 있다. Lv1 모델링 python 파이썬 2/6 모델개념(의사결정나무) 의사결정나무란? 스무고개 방식으로 구조화되는 것이다. 각 행들은 피쳐를 가지고 있다. 이 중 하나의 피쳐에 특정한 하나의 값을 정한다면, 이를 기준으로 모든 행들을 두 개의 노드로 분류 할 수있다. 만약 피쳐에 2개의 값을 정한다면 3진분할이 될 것 이다. 대표적인 의사 결정나무 CART 의사 결정나무는 이진 분할을 사용한다. 파생된 두 개의 노드에 또 다시 새로운 피쳐의 특정한 값을 정하고 분류한다. 이 과정의 반복을 ..

Lv1 전처리 1/2 python 파이썬 데이터 기본 정보 확인하기(info()) 피쳐들의 기본 정보를 확인할 수 있으며 모델링에 앞서 결측치가 있다면 결측치를 어떻게 처리 할지 결정 할 수 있다. ↓info()데이터를 활용해 데이터 확인하기 Lv1 전처리 2/2 python 파이썬 결측치삭제,대체(dropna, fillna) dropna() 를 사용해 결측치를 갖는 행을 객체에서 삭제한다. 가장쉽게 결측치를 해결하는 방법이다. 또한 fillna() 를 사용해 모든 결측치를 인자 값으로 대체할 수 있다. ↓dropna() 를 활용해 결측치 삭제하기

Lv1 EDA 1/5 python 파이썬 라이브러리 불러오기(import) 데이터를 분석하기 위해 불러오고,조작하려면 도구가 필요하다. 대표적으로 pandas, numpy, matplotlib 등이 있습니다. 최우선적으로 불러와야할 도구입니다. ↓pandas 불러오기 코드 Lv1 EDA 2/5 python 파이썬 파일 불러오기(read_csv) pandas를 이용해 csv 파일불러왹 위해서 pandas를 import하고 약어로 지정한 pd를 사용해 read_csv파일을 불러 올 수 있습니다. ↓csv 파일 불러오기 코드 Lv1 EDA 3/5 python 파이썬 행 열 갯수 관찰하기(shape) 불러온 데이터의 행과 열의 갯수를 shape attribute로 관찰할 수 있습니다. ↓shape 를 이용해 t..