티스토리 뷰

오늘은, csv파일의 활용해 파이썬으로 데이터처리를 해보자!

1)csv파일로의 전환

 

haloboy777/arfftocsv

ARFF to CSV converter (python). Contribute to haloboy777/arfftocsv development by creating an account on GitHub.

github.com

다음 코드를 활용해 arff파일을 csv파일로 전환하여 사용할 수 있다.


2)iris.csv파일을 사용하여 필요한 데이터만 가져와 a_list에 저장

-

iris.csv
0.00MB

 

 

- %문자와같은 특이값이 있다면 continue해줌

- next(rdr)을 통해 읽어온 값의 맨 윗줄(상세정보가 써져있는 값)은 포함하지 않음

1번행은 next를 통해 skip

-class별로 데이터를 모아보자

- 집합의 성질을 활용

a_list[-1]값을 다 탐색하며 하나의 집합에 넣으면 집합은 중복제거가 된 값이기에 3개의 값이 나옴.

- 집합을 list로

classes = list(set(result))일때, result는 class를 담을 리스트이고 set을 통해 중복제거를 하고 3개의 class를 list를 통해 classes라는 리스트에 저장할 수 있다.

import csv

f = open('iris.csv', 'r', encoding='utf-8')
rdr = csv.reader(f)
a_list = []

next(rdr)

for line in rdr:
    
    if line[0]=='%':
       continue
    else:
        a_list.append(line)
        
f.close()

colums = len(a_list[0])
#print(colums)
rows = len(a_list)
#print(rows)

classes = []
for list_ in a_list:
    classes.append(list_[-1])

classes = list(set(classes))
c2 = len(classes)

print("number of colums ",colums,",number of rows ",rows,", number of class ",c2)

실행결과


이런식으로 set과 list를 적절하게 활용해서 데이터를 처리할 수 있다.

 

'데이터분석 및 인공지능' 카테고리의 다른 글

기본 이미지 분류[기본분류]  (0) 2021.12.10
1. 의류 이미지 분류  (0) 2021.11.03
강화학습  (0) 2021.06.28
순환 신경망을 활용한 문자열 생성  (0) 2021.03.29
머신러닝과 딥러닝  (0) 2021.03.03