rmrbscraping

People's Daily, Renmin Ribao, 人民日报 scraping code.

이 저장소는 老资料网의 《人民日报》 페이지에서 기사 제목과 본문을 수집하여 CSV 및 Excel 파일로 저장하는 간단한 Python 스크립트를 포함한다.

Source

Data source: https://www.laoziliao.net/rmrb
Repository: https://github.com/GeonjoonBae/rmrbscraping

Files

수집 스크립트

rmrb_scraping_1m.py   # 특정 연도-월의 인민일보 기사 수집
rmrb_scraping_1y.py   # 특정 연도 전체의 인민일보 기사 수집

예시 데이터 파일

rmrb1946-05.csv
rmrb1946-05.xlsx
rmrb1946.csv
rmrb1946.xlsx

Requirements

pip install requests beautifulsoup4 pandas tqdm openpyxl

Usage

1. Monthly scraping

특정 연도와 월을 입력하여 한 달치 데이터를 수집한다.

python rmrb_scraping_1m.py

실행 후 다음 값을 입력한다.

Enter the year (yyyy): 1946
Enter the month (mm): 05

출력 파일:

rmrb_1946-05.csv
rmrb_1946-05.xlsx

2. Yearly scraping

특정 연도 전체 데이터를 수집한다.

python rmrb_scraping_1y.py

실행 후 다음 값을 입력한다.

Enter the year (yyyy): 1946

출력 파일:

rmrb1946.csv
rmrb1946.xlsx

Output Columns

수집 결과는 다음 열로 구성된다.

yyyy      # 연도
mm        # 월
dd        # 일
p         # 지면 번호
title     # 기사 제목
contents  # 기사 본문
url       # 수집 대상 URL

Notes

스크립트는 각 페이지 요청 사이에 짧은 대기 시간을 둔다.
수집 속도가 지나치게 빠르면 페이지 누락이나 접속 제한이 발생할 수 있다.
Excel 파일은 한 셀에 저장할 수 있는 글자 수 제한이 있으므로, 긴 본문 분석에는 CSV 파일 사용을 권장한다.
rmrb_scraping_1y.py에는 Google Colab 환경에서 결과 파일을 다운로드하는 코드가 포함되어 있다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

rmrbscraping

Source

Files

Requirements

Usage

1. Monthly scraping

2. Yearly scraping

Output Columns

Notes

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.md		README.md
rmrb1946-05.csv		rmrb1946-05.csv
rmrb1946-05.xlsx		rmrb1946-05.xlsx
rmrb1946.csv		rmrb1946.csv
rmrb1946.xlsx		rmrb1946.xlsx
rmrb_scraping_1m.py		rmrb_scraping_1m.py
rmrb_scraping_1y.py		rmrb_scraping_1y.py

Folders and files

Latest commit

History

Repository files navigation

rmrbscraping

Source

Files

Requirements

Usage

1. Monthly scraping

2. Yearly scraping

Output Columns

Notes

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages