AzureのUbuntu環境でPythonを使ってスクレイピングするよ!

必要なもののインストール

まずは必要なもののインストールから行っていきましょう。

適当な作業ディレクトリを作成してすべてその中で作業を行っていきます。

mkdir sel
cd sel

こんなもんでいいでしょう。

次にchromeのダウンロードとインストール、依存モジュールのインストールも行っていきます。

wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo dpkg -i google-chrome-stable_current_amd64.deb
sudo apt update
sudo apt -f install -y

chromeのバージョンは適宜自分の環境にあったものをダウンロードしてきてください。

Seleniumをインストール

sudo apt install -y python3-selenium

日本語の環境の方がスクレイピングする際に便利なのでフォントをインストールしてきます。

まずはunzipをインストール

sudo apt install unzip

次に日本語フォント

wget https://moji.or.jp/wp-content/ipafont/IPAexfont/IPAexfont00401.zip
unzip IPAexfont00401.zip -d ~/.fonts/

これでスクレイピングできるはずです。適当なコードを実行してみましょう。

# 必要なライブラリのインポート
import time
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://www.google.co.jp/")

search_box = driver.find_element_by_name('q')
search_box.send_keys('Selenium')
search_box.submit()
driver.find_element_by_link_text("Selenium - Web Browser Automation").click()

driver.quit()

スクレイピングはできましたか?

EC2 UbuntuでGoogle Chromeをヘッドレス実行してスクリーンショットを採取する手順 - Qiita
概要GoogleChromeをヘッドレス実行してスクリーンショットを採取するAWSEC2のUbuntuを利用するPython+Selenium+ChromeDriver手順コマ…

リンク等が使えなくなっておりこちらを参考に備忘録として残しておきます。

コメント

タイトルとURLをコピーしました