본문 바로가기

전체 글79

[데이터 분석] 판다스를 활용한 데이터프레임 생성 및 개념 · 데이터프레임이란 데이터프레임은 행과 열로 구성된 2차원의 데이터 구조를 가진다. 이는 표 형태의 데이터를 다루기에 적합하며, 행은 개별 데이터를, 열은 데이터의 속성을 나타낸다. 각 열은 서로 다른 데이터 타입(정수, 실수, 문자열 등)을 가질 수 있다. 즉, 하나의 데이터프레임 내에서도 다양한 유형의 데이터를 관리할 수 있다. 또한, 데이터프레임은 행과 열 모두에 레이블을 지정할 수 있다. '레이블'이란 데이터를 구분하고 식별하기 위한 태그나 이름을 말한다. 열 레이블은 각 열의 이름을 말하고, 행 레이블은 보통 데이터의 순서를 나타내는 인덱스를 사용하여 각 행을 구분한다. 이 레이블을 사용하면 원하는 데이터에 쉽게 접근할 수 있다. 특히, 판다스 라이브러리의 데이터프레임은 레이블을 기반으로 데이터.. 2023. 11. 29.
[데이터 분석] sqlalchemy, pymysql 라이브러리를 활용하여 데이터베이스에 데이터 저장하기(+DB 연결) HTML 삽입 미리보기할 수 없는 소스 본 글에서는 이전 글의 "데이터를 파일에 저장하는 방법"에 이어 "데이터를 데이터베이스에 저장하는 방법"에 대해 알아보고자 한다. (데이터를 파일에 저장하는 방법은 아래의 링크 참고) 2023.11.29 - [[파이썬]/데이터 분석] - [데이터 분석] 데이터 저장_파일 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경) - MariaDB(오픈 소스 관계형 데이터베이스 관리 시스템) · 데이터를 데이터베이스에 저장하는 방법 데이터를 데이터베이스의 테이블로 저장할 수 있다. 이 경우, SQL과 같은 데이터베이스 관리 시스템(DBMS)을 사용해서 데이터를 저장하게 된다. 데이터베이스 연결 생성 먼저, 데이터베이스에 연결해야 한다. 이를 위해 필요.. 2023. 11. 29.
[데이터 분석] 판다스를 활용하여 파일에 데이터를 저장하기(+CSV 개념) HTML 삽입 미리보기할 수 없는 소스 ( 본 글의 이전에는 데이터 수집을 수행하였다. 데이터 수집에 관하여 참조하실 분들은 아래의 글을 참조하시길 바란다.) 2023.11.29 - [[파이썬]/데이터 분석] - [데이터 분석] 데이터 수집 (+Pandas) 데이터 저장 데이터를 저장하는 이유는 무엇일까? 데이터를 저장하는 가장 큰 이유는 '재사용'이다. 한 번 수집한 데이터를 저장해 두면, 나중에 같은 데이터를 다시 사용해야 할 때 재수집할 필요 없이 저장된 데이터를 불러와 사용할 수 있다. 그리고 이 저장된 데이터를 통해 결과를 재현하거나, 새로운 분석 방법을 적용해 보거나, 다른 사람들과 데이터를 공유하는 등 여러 방면에서 유용하게 활용할 수 있다. 데이터를 저장하는 방법으로는 여러 가지가 있지만,.. 2023. 11. 29.
[데이터 분석] 판다스를 활용한 데이터 수집과 조회 HTML 삽입 미리보기할 수 없는 소스 데이터 수집 데이터 수집은 데이터 분석의 가장 기본적이고 중요한 단계이다. 이 단계에서는 분석하고자 하는 문제에 대한 적절한 데이터를 모으는 작업이 이루어진다. 왜냐하면, 데이터 수집 없이는 분석이나 예측을 수행할 수 없기 때문이다. 데이터는 분석의 기초를 이루는 원재료와 같은 것으로, 어떤 데이터를 수집하느냐에 따라 그 후의 분석 결과가 크게 달라질 수 있다. 또한, 데이터 수집은 분석 대상을 정의하고 이해하는 데도 중요한 역할을 한다. 수집된 데이터는 해당 분야나 상황에 대한 정보나 지식을 제공하며, 이를 통해 분석가들은 문제를 더 잘 이해하고, 적절한 분석 방법을 선택할 수 있게 된다. 결론적으로, 데이터 수집은 데이터 분석의 첫 번째 단계로서 분석의 방향을 .. 2023. 11. 29.
[데이터 분석] 판다스(Pandas) 라이브러리 설치 및 개념 HTML 삽입 미리보기할 수 없는 소스 판다스 데이터 프레임 · 판다스(Pandas)란 판다스는 파이썬에서 데이터 분석을 위해 사용하는 라이브러리 중 하나이다. 주로 2차원의 테이블 형태의 데이터나 다양한 형태의 데이터를 다루는 데에 특화되어 있다. 특히 판다스의 핵심 데이터 구조인 '데이터프레임(DataFrame)'은 2차원 행렬 데이터를 효율적으로 처리하도록 설계되었다. 데이터프레임은 행과 열로 구성된 2차원 데이터 구조로, 행은 개별 데이터를, 열은 데이터의 속성을 나타낸다. 각 열은 서로 다른 데이터 타입(정수, 실수, 문자열 등)을 가질 수 있다. 이런 특성 덕분에 판다스는 다양한 분야에 널리 사용된다. 판다스를 사용하면 데이터를 쉽게 필터링, 정렬, 병합, 변형할 수 있으며, 누락 데이터(결측.. 2023. 11. 28.
[MariaDB] 저장 프로시저의 개념과 생성 및 호출 HTML 삽입 미리보기할 수 없는 소스 저장 프로시저 데이터베이스 루틴 · 저장 프로시저란 저장 프로시저는 SQL에서 사용할 수 있는 프로그래밍 기능 중 하나이다. 저장 프로시저는 하나 이상의 SQL 문장을 포함하는 루틴을 의미하며, 이 루틴은 데이터베이스에 저장되어 필요할 때 호출하여 사용할 수 있다. 여기서 말하는 '루틴'이란 반복적으로 수행되는 일련의 동작이나 작업을 의미한다. 컴퓨터 프로그래밍에서는 "특정 작업을 수행하는 코드의 묶음"을 가리키는 용어로도 사용된다. 데이터베이스에서 루틴은 저장 프로시저나 함수 등과 같이 일련의 SQL 명령문을 묶어 놓은 것을 의미한다. 이 루틴은 데이터베이스 작업을 효율적으로 수행하도록 돕는다. · 저장 프로시저를 사용하는 이유는 ? 코드 재사용 : 저장 프로시저.. 2023. 11. 28.