( 본 글의 이전에는 데이터 수집을 수행하였다. 데이터 수집에 관하여 참조하실 분들은 아래의 글을 참조하시길 바란다.)
2023.11.29 - [[파이썬]/데이터 분석] - [데이터 분석] 데이터 수집 (+Pandas)
데이터 저장
데이터를 저장하는 이유는 무엇일까? 데이터를 저장하는 가장 큰 이유는 '재사용'이다.
한 번 수집한 데이터를 저장해 두면, 나중에 같은 데이터를 다시 사용해야 할 때 재수집할 필요 없이 저장된 데이터를 불러와 사용할 수 있다. 그리고 이 저장된 데이터를 통해 결과를 재현하거나, 새로운 분석 방법을 적용해 보거나, 다른 사람들과 데이터를 공유하는 등 여러 방면에서 유용하게 활용할 수 있다.
데이터를 저장하는 방법으로는 여러 가지가 있지만, 크게 두 가지 방법으로 나누어진다.
하나는 정제된 파일 형태로 저장하는 방법이고, 다른 하나는 데이터베이스의 테이블로 저장하는 방법이다.
해당 글에서는 전자인 데이터를 파일로 저장하는 방법에 대해 다뤄보고자 한다.
· 파일에 데이터를 저장하는 방법
파이썬의 판다스 라이브러리에서는 'to_csv()', 'to_excel()', 'to_json()' 등의 함수를 사용하여, 데이터프레임의 정제된 데이터를 쉽게 저장할 수 있다.
import pandas as pd
save_path = "./01_data/new_data.csv"
result_df.to_csv(save_path, index=False)
- save_path : 데이터 파일을 저장할 위치를 나타낸다. 이 변수는 'to_csv' 메서드의 첫 번째 인자로 사용되어 저장할 파일의 경로와 이름을 해당 메서드에게 전달한다.
- result_df.to_csv : 판다스의 'to_csv' 메서드를 호출하는 코드이다. 이 메서드는 데이터프레임 객체인 'reult_df'를 CSV 파일로 저장하는 메서드이다.
- index = False : 이 데이터프레임의 인덱스를 CSV 파일에 저장하지 않도록 하는 옵션이다. 기본적으로 'to_csv' 메서드는 인덱스를 함께 저장하지만, 'index = False'를 지정하면 인덱스 없이 데이터만 저장된다.
· 파일에 데이터를 저장하는 방법의 장점과 단점
파일로 데이터를 저장하는 방법, 특히 데이터프레임을 생성하고 이를 정제된 파일로 저장하는 방법은 여러 가지 장점과 단점이 있다.
장점
- 간단하고 직관적 : 판다스의 'to_csv()', 'to_excel()', 'to_json()' 등의 함수를 사용하면 간단하게 데이터프레임을 파일로 저장할 수 있다. 이 과정은 코드 몇 줄로 간단하게 수행된다.
- 다양한 형식 지원 : 데이터를 CSV, Excel, JSON 등 다양한 파일 형식으로 저장할 수 있다. 이러한 다양성은 데이터를 다른 사람이나 다른 시스템과 공유할 때 유용하다.
단점
- 데이터 크기 제한 : 파일로 데이터를 저장하는 경우, 데이터의 크기에 제한이 있을 수 있다. 큰 용량의 데이터인 경우 파일로 저장하거나 불러오는데 시간이 오래 걸릴 수 있다.
- 데이터 보안 : 파일로 저장된 데이터는 적절한 보안 조치가 없으면 누구나 접근할 수 있다. 따라서 중요한 데이터를 지정할 때에는 데이터 보안을 고려해야 한다.
이러한 장단점을 고려하여, 데이터의 크기, 사용 환경, 데이터의 중요성 등에 따라 적절한 저장 방법을 선택하면 된다.
· 저장할 때 주로 사용하는 파일형식
판다스는 데이터프레임의 정제된 데이터를 CSV, Excel, JSON 등 다양한 형태로 저장할 수 있다. 이 중에서도 특히 CSV(Comma-Separated Values) 형식은 가장 많이 사용되는 형식 중 하나이다. 이 형식은 데이터를 쉼표로 구분하여 저장하는 텍스트 형식이다. 이 형식은 테이블 형태의 데이터를 간단하게 표현하고 저장하는데 널리 사용된다.
CSV 파일은 각 행이 데이터 레코드를 나타내고, 각 열은 쉼표로 구분된 필드 값을 나타낸다. 첫 번째 행은 종종 열의 이름을 나타내는 헤더 행으로 사용되기도 한다.
아래와 같은 데이터가 있다고 가정해 보자.
년도 | 시간 | 전력량 |
2021-01-01 | 1시 | 64942 |
2021-01-01 | 2시 | 62593 |
이 데이터를 CSV 형식으로 표현하면 다음과 같다.
년도,시간,전력량
2021-01-01,1시,64942
2021-01-01.2시,62593
CSV 형식은 이처럼 간단하고, 가볍고, 사람이 읽을 수 있는 형태로 데이터를 저장할 수 있어서 많은 프로그램에서 사용된다. 특히, 대용량의 데이터를 효율적으로 저장하고 처리할 수 있기 때문에 데이터 분석이나 머신러닝에서 많이 사용되는 파일 형식이다.
데이터를 저장하는 가장 큰 이유는 재사용성이다.
데이터를 저장함으로써, 나중에 필요할 때 언제든지 저장한 데이터를 불러와 사용할 수 있다.
파일로 데이터를 저장하는 가장 큰 장점은 간편함이다.
특별한 데이터베이스 시스템 없이도 데이터를 저장하고 불러올 수 있다.
그러나, 대용량의 데이터를 저장하거나 복잡한 쿼리들을 사용할 경우에는 파일보다
데이터베이스에 등록하는 것이 더 효율적일 수 있다.
데이터는 특성과 용도에 따라 다양한 파일 형식이 사용되는데,
주로 간편하고 대용량 데이터 처리에 효율적인 CSV 형식을 사용한다.
이번 글에서는 '데이터를 파일로 저장하는 방법'에 관해 알아보았다.
다음 글에서는 '데이터를 데이터베이스에 저장'하는 방법에 대하여 알아보도록 하겠다.
(아래의 링크 확인)
2023.11.29 - [[파이썬]/데이터 분석] - [데이터 분석] sqlalchemy, pymysql 라이브러리를 활용하여 데이터베이스에 데이터 저장하기(+DB 연결)
'[파이썬] > 데이터 분석' 카테고리의 다른 글
[데이터 분석] 판다스를 활용한 데이터프레임 재구성 (0) | 2023.11.30 |
---|---|
[데이터 분석] 판다스를 활용한 데이터프레임 생성 및 개념 (1) | 2023.11.29 |
[데이터 분석] sqlalchemy, pymysql 라이브러리를 활용하여 데이터베이스에 데이터 저장하기(+DB 연결) (1) | 2023.11.29 |
[데이터 분석] 판다스를 활용한 데이터 수집과 조회 (0) | 2023.11.29 |
[데이터 분석] 판다스(Pandas) 라이브러리 설치 및 개념 (2) | 2023.11.28 |