Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

ASAP 개발

[데이콘 Pandas 튜토리얼1] Ch1~7 본문

BigData/Python

[데이콘 Pandas 튜토리얼1] Ch1~7

아라동 2022. 2. 4. 16:52
[튜토리얼] Ch01 CSV파일과 데이터프레임
비정형데이터 -Unstructured Data
-문서,동영상,사진,음성등의 형태를 저으이할 수 없는 데이터
-정형 데이터를 다루는 RDB에서 활용이 불가능 함
정형데이터 -Structured Data
-열과 행을 정리하여 일목요연하게 표로 만들 수 있는 데이터
-정형데이터를 다루기 위해 관계형 데이터 베이스(RDB:Relational DataBase)가 할용되기도 함
-정형 데이터를 파일로 변환할 경우 두가지 파일형태로 만들 수있음
 -CSV(Comma Separated Values)
 -TSV(Tab Separated Values)

↑메모장으로도 CSV파일을 만들수 있다.


코랩으로 메모장 csv파일 실행하기
이렇게 행과 열로 구별된 2차원 데이터를 판다스에서는 데이터 프레임 이라고 부른다.
shape를 활용해 데이터 행,열 확인하기

head(),tail()활용해 데이터  처음 3줄 마지막3줄 확인하기
info(),['']를 활용해 데이터  데이터 정보 파악하기

 


[튜토리얼] Ch02 DataFrame 생성과 저장

 

도시와 인구수 리스트를 이용하여 DataFrame을 만들기

pd.DataFrame() 함수를 이용하여 DataFrame을 생성합니다.

DataFrame에 내용 출력하기
딕셔너리를 이용한 Dataframe생성하기
저장경로 및 파일명 외에도 index, header 변수가 있으며 index와 header의 기본값은 True

index가 True이면 DataFrame의 인덱스가 하나의 컬럼으로 추가됨
header가 False면 컬럼명을 제외하고 저장함

[튜토리얼] Ch03 컬럼과 로우 추가
남자와 여자 인구수를 컬럼으로 추가
-[ ]안에 추가 할 로우의 인덱스를 입력 후 값을 추가

-pd.DataFrame.loc[인덱스, 컬럼]으로 특정 위치를 지정하고 원하는 값을 저장

[튜토리얼] Ch04 다중 컬럼, 로우 선택
[2:-2] = 2는 처음 두개를 띄우고 세번째부터 보고싶을때
          -2는 뒤에서 두개를 띄우고 세번째부터 보고싶을때
[-2:] = 뒤에 두개만을 보고 싶을때
대괄호는 row의 범위만을 선택가능하다.

1.loc : 로우와 컬럼의 인덱스로 데이터에 접근

2.iloc : 로우와 컬럼의 위치로 데이터에 접근

[5]번은 지정한 하나하나의 로우와 컬럼 인덱스를 보는 방법 ,를 사용
[6]번은 지정한 범위의 로우와 컬럼을 인덱스를 보는 방법 :를 사용
*인덱스는 loc를 사용함으로 음수는 사용하지 못한다.
-iloc는 데이터의 로우와 컬럼 인덱스를 무시한다.
 [7]번은 지정한 하나하나의 로우와 컬럼 인덱스를 보는 방법 ,를 사용
 [8]번은 지정한 범위의 로우와 컬럼을 인덱스를 보는 방법 :를 사용
-ioc와 다를바 없어보이지만 위치를 정해 보여주기 때문에 조금 더 간단하고 음수도 사용이 가능
-상황에 따라 iloc와loc를 잘 사용해야함

[튜토리얼] Ch05 통계함수
-unique는 컬럼의 중복된 경우를 제외하고 고유값만을 찾아 반환함.
-value_counts():고유값을 카운트해서 반환하는 함수

pd.DataFrame.sum() : 각 컬럼의 합계를 반환

pd.DataFrame.max() : 각 컬럼의 최대값을 반환

pd.DataFrame.idxmax() : 특정 컬럼의 최대값의 인덱스 반환

pd.DataFrame.min() : 각 컬럼의 최소값을 반환

pd.DataFrame.idxmin() : 특정 컬럼의 최소값의 인덱스 반환

pd.DataFrame.mean() : 각 컬럼의 평균을 반환

pd.DataFrame.median() : 각 컬럼의 중앙값을 반환

pd.DataFrame.var() : 각 컬럼의 분산을 반환

pd.DataFrame.std() : 각 컬럼의 표준편차를 반환


[튜토리얼] Ch06 컬럼 연산





[튜토리얼] Ch07 비교 연산자를 이용한 판별

-특정 조건을 만존하는지 안하는지 판별한다.


'BigData > Python' 카테고리의 다른 글

DACON "오늘의 파이썬" 모델링  (0) 2022.02.02
DACON "오늘의 파이썬" 전 처리  (0) 2022.02.02
Dacon "오늘의 파이썬" EDA  (0) 2022.02.02
Comments