People's Daily, Renmin Ribao, 人民日报 scraping code.
이 저장소는 老资料网의 《人民日报》 페이지에서 기사 제목과 본문을 수집하여 CSV 및 Excel 파일로 저장하는 간단한 Python 스크립트를 포함한다.
- Data source: https://www.laoziliao.net/rmrb
- Repository: https://github.com/GeonjoonBae/rmrbscraping
수집 스크립트
rmrb_scraping_1m.py # 특정 연도-월의 인민일보 기사 수집
rmrb_scraping_1y.py # 특정 연도 전체의 인민일보 기사 수집
예시 데이터 파일
rmrb1946-05.csv
rmrb1946-05.xlsx
rmrb1946.csv
rmrb1946.xlsx
pip install requests beautifulsoup4 pandas tqdm openpyxl특정 연도와 월을 입력하여 한 달치 데이터를 수집한다.
python rmrb_scraping_1m.py실행 후 다음 값을 입력한다.
Enter the year (yyyy): 1946
Enter the month (mm): 05
출력 파일:
rmrb_1946-05.csv
rmrb_1946-05.xlsx
특정 연도 전체 데이터를 수집한다.
python rmrb_scraping_1y.py실행 후 다음 값을 입력한다.
Enter the year (yyyy): 1946
출력 파일:
rmrb1946.csv
rmrb1946.xlsx
수집 결과는 다음 열로 구성된다.
yyyy # 연도
mm # 월
dd # 일
p # 지면 번호
title # 기사 제목
contents # 기사 본문
url # 수집 대상 URL
- 스크립트는 각 페이지 요청 사이에 짧은 대기 시간을 둔다.
- 수집 속도가 지나치게 빠르면 페이지 누락이나 접속 제한이 발생할 수 있다.
- Excel 파일은 한 셀에 저장할 수 있는 글자 수 제한이 있으므로, 긴 본문 분석에는 CSV 파일 사용을 권장한다.
rmrb_scraping_1y.py에는 Google Colab 환경에서 결과 파일을 다운로드하는 코드가 포함되어 있다.