CATEGORY スクレイピング・RPA

Pythonでデータ加工(スクレイピング編)

# python環境 import requests # file操作のため from bs4 import BeautifulSoup # htmlファイルをごっそりとってくる BeautifulSoupというライブラリを使うと、簡単にスクレイピングができるので、そのことについてメモ # encoding は取得したページの文字コードを選択 # htmlファイルは同じディレクトリ内にあるものとする filepath = "ファイル名.html" with open(filepath , encoding='utf-8') as f: html = f.read() soup = BeautifulSoup(html, 'html.parser') # htmlファイルの中身が出力される print(soup) soup変数に格納された文字列を加工することが以下のように簡単にできます。 /* h1タグを取ってくる */ soup.find_all('h1') # <h1>Hello World!</h1> # ↑こんな感じの出力が得られる # spanタグの中身だけを出力 for text_line in soup.find_all('span'): print(text_line.get_text())