Skip to content

GeonjoonBae/rmrbscraping

Repository files navigation

rmrbscraping

People's Daily, Renmin Ribao, 人民日报 scraping code.

이 저장소는 老资料网의 《人民日报》 페이지에서 기사 제목과 본문을 수집하여 CSV 및 Excel 파일로 저장하는 간단한 Python 스크립트를 포함한다.

Source

Files

수집 스크립트

rmrb_scraping_1m.py   # 특정 연도-월의 인민일보 기사 수집
rmrb_scraping_1y.py   # 특정 연도 전체의 인민일보 기사 수집

예시 데이터 파일

rmrb1946-05.csv
rmrb1946-05.xlsx
rmrb1946.csv
rmrb1946.xlsx

Requirements

pip install requests beautifulsoup4 pandas tqdm openpyxl

Usage

1. Monthly scraping

특정 연도와 월을 입력하여 한 달치 데이터를 수집한다.

python rmrb_scraping_1m.py

실행 후 다음 값을 입력한다.

Enter the year (yyyy): 1946
Enter the month (mm): 05

출력 파일:

rmrb_1946-05.csv
rmrb_1946-05.xlsx

2. Yearly scraping

특정 연도 전체 데이터를 수집한다.

python rmrb_scraping_1y.py

실행 후 다음 값을 입력한다.

Enter the year (yyyy): 1946

출력 파일:

rmrb1946.csv
rmrb1946.xlsx

Output Columns

수집 결과는 다음 열로 구성된다.

yyyy      # 연도
mm        # 월
dd        # 일
p         # 지면 번호
title     # 기사 제목
contents  # 기사 본문
url       # 수집 대상 URL

Notes

  • 스크립트는 각 페이지 요청 사이에 짧은 대기 시간을 둔다.
  • 수집 속도가 지나치게 빠르면 페이지 누락이나 접속 제한이 발생할 수 있다.
  • Excel 파일은 한 셀에 저장할 수 있는 글자 수 제한이 있으므로, 긴 본문 분석에는 CSV 파일 사용을 권장한다.
  • rmrb_scraping_1y.py에는 Google Colab 환경에서 결과 파일을 다운로드하는 코드가 포함되어 있다.

About

People's Daily(Renmin Ribao, 人民日报) scraping code

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages