単純なスクレイピング

Pythonでページを取得し、特定のタグを取得するまでの手順は以下の通り。

 

1.事前準備として以下2つのライブラリをインストールする

 requests・・・WEBページを取得するライブラリ

   beautifulsoup4・・・HTML解析ライブラリ

 

 インストールはコマンドプロンプトから以下のコードを実行する。

pip install requests

 

pip install beautifulsoup4

 

2.Pythonのコードで以下の参照設定を行う

#ライブラリをインポートする
import requests
from bs4 import BeautifulSoup        #大文字・小文字の区別に注意

 

3.以下のコードを実行し対象ページの特定のタグの値を取得する

#ページを取得する (アドレスは任意のURLに書き換えてください)
req = requests.get('https://hogehoge.co.jp/about/')
htmltext = req.text

 

#取得したページをBeautifulSoupに渡す
soup = BeautifulSoup(htmltext,'html.parser')

 

#divタグでclassがentry-bodyと定義されている箇所を取得する
resulttext = soup.find('div', class_='entry-body')

 

#取得結果を出力する
print(resulttext)