본문 바로가기

[파이썬]/데이터 분석16

[데이터 분석] 데이터 빈도분석 및 워드클라우드 시각화 HTML 삽입 미리보기할 수 없는 소스 본 글에서는 "영화 긍정/부정 리뷰데이터에서 빈도분석 및 워드클라우드 시각화"에 대한 내용을 다룰 것이다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째, 빈도분석과 워드 클라우드 두 번째, 영화 긍정/부정 리뷰데이터에서 빈도분석 및 워드클라우드 시각화 단계별 수행 [단계] 리뷰 데이터 필터링 및 분류 > 리뷰 데이터 전처리_정규식 패턴 > 리뷰 데이터 형태소 추출 > 리뷰 명사 전처리_한 글자 제외 > 리뷰 명사 빈도분석 > 리뷰 명사 전처리_상위 20개 명사 추출 > 빈도 시각화 워드클라우드(wordcloud) 시각화 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경) [사용 라이브러리 및 플러그인] - (판다스) pan.. 2023. 12. 6.
[데이터 분석] 형태소의 개념 및 라이브러리 설치(KoNLPy, konlpy, nltk, JPype1 + wordcloud, punkt, stopwords) HTML 삽입 미리보기할 수 없는 소스 본 글에서는 형태소의 개념과 형태소 라이브러리 및 플러그인에 대한 설명 및 호출방법과 설치방법에 대한 내용을 다룰 것이다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째, 형태소란 두 번째, 형태소 분석에 알아두면 좋을 용어 세 번째, 형태소 분석에 사용하는 라이브러리 및 플러그인 네 번째, KoNLPY 라이브러리 설치 이전에 유의해야 할 점 다섯 번째, 라이브러리 및 플러그인 설치방법 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경) [사용 라이브러리 및 플러그인] - KoNLPy(konlpy) - nltk (punkt, stopwords 플러그인) - JPype1 - wordcloud - punkt 형태소 · 형태소란 .. 2023. 12. 5.
[데이터 분석] selenium 라이브러리를 활용한 동적 웹 크롤링 HTML 삽입 미리보기할 수 없는 소스 본 글에서는 웹 크롤링에 대한 내용을 다룰 것이다. 그 중에서도 'Selenium' 라이브러리를 사용한, 동적 웹 크롤링에 대해 중점적으로 다루고자 한다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째, 웹 크롤링(Web Crawling )이란 두 번째, (동적) 웹 크롤링 라이브러리 세 번째, 동적 웹 크롤링의 일반적인 과정 네 번째, 예시_10개의 영화에 대한 제목, 평점, 리뷰데이터 수집하기 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경) [사용 라이브러리] - selenium (webdriver, By) - time 웹 크롤링(Web Crawling) 웹 크롤링이란, 웹 페이지를 방문하고 그 페이지의 정보를 자동으.. 2023. 12. 5.
[데이터 분석] 데이터 시각화를 통한 데이터 분석(matplotlib, matplotlib.pyplot, seaborn) 본 글에서는 "데이터 시각화를 통한 데이터 분석"에 관한 내용을 다룰 것이다. 이전에 데이터 가공(전처리) 작업을 수행한 데이터프레임 객체를 시각화하여 데이터 분석을 진행할 것이다. 이 데이터프레임 객체는 "포항시 BIS 교통카드 사용내역 데이터"에 대한 정보를 담고 있다. 차례와 사용 툴은 아래와 같다. [차례] 첫 번째, 사용할 데이터 호출 및 검증 두 번째, 데이터 시각화 라이브러리 호출 세 번째, 기준월 및 기준일자별 버스 이용량 시각화 분석 - 히트맵 네 번째, 시간 및 승객구분별 버스 내 체류시간(분) 시각화 - 막대그래프, 히스토그램 다섯 번째, 승하차정류장별 버스내체류시간(분) 상위 30건 시각화 분석 - 선그래프 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경) .. 2023. 12. 4.
[데이터 분석] 시각화 라이브러리 Matplotlib, Seaborn, matplotlib.pyploy (+폰트 설정, 마이너스 기호 적용) HTML 삽입 미리보기할 수 없는 소스 · 시각화 라이브러리 데이터 분석에서 시각화는 매우 중요한 요소이다. 복잡한 데이터를 이해하기 쉬운 그래프로 표현하면, 데이터의 패턴이나 트렌드를 빠르게 파악할 수 있다. 파이썬에서는 주로 'Matplotlib'와 'Seaborn' 라이브러리를 이용하여 데이터를 시각화한다. # 시각화 라이브러리 import matplotlib import matplotlib.pyplot as plt import seaborn as sns 'Matplotlib'는 파이썬에서 가장 기본적인 그래프를 그릴 수 있는 라이브러리이다. 또한, 'matplotlib.pyploy'은 'Matplotlib'의 하위 모듈로, 'pit'이라는 별칭으로 주로 사용된다. 이 'Pyplot' 모듈은 기본적.. 2023. 12. 3.
[데이터 분석] 데이터 분석을 위한 데이터 가공(전처리) HTML 삽입 미리보기할 수 없는 소스 본 글에서는 "분석을 위한 데이터 가공하기"에 관한 내용을 다룰 것이다. 차례와 사용 툴은 아래와 같다. [차례] 첫 번째, 데이터 가공(전처리)란 두 번째, 분석에 필요한 시나리오 작성하기 (분석 목적, 주제 등 포함) 세 번째, 사용할 데이터 검증하기 네 번째, 분석에 필요한 데이터 가공(전처리)하기 다섯 번째, 생성한 프로세스를 통해 하나의 통합 파일로 생성하기 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경) · 데이터 가공, 또는 전처리 데이터 가공, 또는 데이터 전처리는 같은 의미로 사용되는데, 이 용어들은 원시 데이터(초기 상태의 데이터)를 분석이 가능한 형태로 변환하는 과정을 가리킨다. 이는 데이터 분석을 수행하기 전에 반드시.. 2023. 12. 3.