다음의 코드는 동일한 형식을 가진 여러 개의 엑셀 파일을 하나의 파일로 통합하는 파이썬 코드입니다.
import pandas as pd
import os
pandas
라이브러리를pd
라는 약어로 임포트합니다.pandas
는 데이터 처리와 분석을 위한 파이썬 라이브러리입니다.os
라이브러리를 임포트합니다. 이 라이브러리는 운영 체제와 상호작용할 수 있는 다양한 기능을 제공합니다.
# 엑셀 파일 목록
excel_files = [f'articles_batch_{i + 1}.xlsx' for i in range(19)]
excel_files
라는 리스트를 생성합니다. 이 리스트는'articles_batch_1.xlsx'
부터'articles_batch_19.xlsx'
까지의 파일 이름을 문자열로 포함합니다.for i in range(19)
는 0부터 18까지의 숫자를 생성합니다.f'articles_batch_{i + 1}.xlsx'
는 포맷 문자열을 사용하여i
값에 1을 더한 후 이를 엑셀 파일 이름 형식으로 변환합니다.
# 빈 DataFrame 생성
combined_df = pd.DataFrame()
combined_df
라는 빈DataFrame
을 생성합니다.DataFrame
은pandas
의 주요 데이터 구조 중 하나로, 2차원 데이터 테이블을 표현합니다.
# 각 엑셀 파일을 읽어와서 하나의 DataFrame으로 결합
for file in excel_files:
df = pd.read_excel(file)
combined_df = pd.concat([combined_df, df], ignore_index=True)
for file in excel_files:
는excel_files
리스트에 있는 각 파일 이름에 대해 반복문을 시작합니다.df = pd.read_excel(file)
는 현재 파일 이름(file
)을 사용하여 엑셀 파일을 읽고, 그 내용을DataFrame
으로 변환하여df
에 저장합니다.combined_df = pd.concat([combined_df, df], ignore_index=True)
는 기존의combined_df
와 새로 읽어온df
를 결합합니다.ignore_index=True
는 인덱스를 무시하고 새로운 연속적인 인덱스를 부여합니다.
# 통합된 DataFrame을 엑셀 파일로 저장
combined_df.to_excel('combined_articles.xlsx', index=True)
combined_df
라는 통합된DataFrame
을'combined_articles.xlsx'
라는 이름의 엑셀 파일로 저장합니다.index=True
는 인덱스를 엑셀 파일에 포함하겠다는 의미입니다.
이 코드는 여러 개의 엑셀 파일을 하나의 데이터 프레임으로 결합하고, 이를 다시 하나의 엑셀 파일로 저장하는 작업을 수행합니다.
반응형
'코딩과 데이터 분석' 카테고리의 다른 글
Selenium을 위한 Chrome 브라우저 설정 옵션 완벽 가이드 (0) | 2024.06.12 |
---|---|
(파이썬) 네이버 블로그 검색 API 활용하기 (0) | 2024.06.12 |
(파이썬) makedirs 사용하여 폴더 만들고 엑셀 파일로 저장 (0) | 2024.05.31 |
[javascript] 자바스크립트 단축 평가(short circuit evaluation)에 대해 (0) | 2024.05.30 |
webp 이미지 파일의 확장자 일괄 변형 (1) | 2024.04.02 |