본문 바로가기

코딩과 데이터 분석

(파이썬) 여러 개의 엑셀 파일을 하나로 통합하기

다음의 코드는 동일한 형식을 가진 여러 개의 엑셀 파일을 하나의 파일로 통합하는 파이썬 코드입니다.

import pandas as pd
import os
  • pandas 라이브러리를 pd라는 약어로 임포트합니다. pandas는 데이터 처리와 분석을 위한 파이썬 라이브러리입니다.
  • os 라이브러리를 임포트합니다. 이 라이브러리는 운영 체제와 상호작용할 수 있는 다양한 기능을 제공합니다.
# 엑셀 파일 목록
excel_files = [f'articles_batch_{i + 1}.xlsx' for i in range(19)]
  • excel_files라는 리스트를 생성합니다. 이 리스트는 'articles_batch_1.xlsx'부터 'articles_batch_19.xlsx'까지의 파일 이름을 문자열로 포함합니다.
  • for i in range(19)는 0부터 18까지의 숫자를 생성합니다.
  • f'articles_batch_{i + 1}.xlsx'는 포맷 문자열을 사용하여 i 값에 1을 더한 후 이를 엑셀 파일 이름 형식으로 변환합니다.
# 빈 DataFrame 생성
combined_df = pd.DataFrame()
  • combined_df라는 빈 DataFrame을 생성합니다. DataFramepandas의 주요 데이터 구조 중 하나로, 2차원 데이터 테이블을 표현합니다.
# 각 엑셀 파일을 읽어와서 하나의 DataFrame으로 결합
for file in excel_files:
    df = pd.read_excel(file)
    combined_df = pd.concat([combined_df, df], ignore_index=True)
  • for file in excel_files:excel_files 리스트에 있는 각 파일 이름에 대해 반복문을 시작합니다.
  • df = pd.read_excel(file)는 현재 파일 이름(file)을 사용하여 엑셀 파일을 읽고, 그 내용을 DataFrame으로 변환하여 df에 저장합니다.
  • combined_df = pd.concat([combined_df, df], ignore_index=True)는 기존의 combined_df와 새로 읽어온 df를 결합합니다. ignore_index=True는 인덱스를 무시하고 새로운 연속적인 인덱스를 부여합니다.
# 통합된 DataFrame을 엑셀 파일로 저장
combined_df.to_excel('combined_articles.xlsx', index=True)
  • combined_df라는 통합된 DataFrame'combined_articles.xlsx'라는 이름의 엑셀 파일로 저장합니다.
  • index=True는 인덱스를 엑셀 파일에 포함하겠다는 의미입니다.

이 코드는 여러 개의 엑셀 파일을 하나의 데이터 프레임으로 결합하고, 이를 다시 하나의 엑셀 파일로 저장하는 작업을 수행합니다.

반응형