なんでもおきば📒

本やらセミナーやらのまとめなど。

スクレイピング

スクレイピング・ハッキング・ラボ Pythonで自動化する未来型生活

 

 

Webのしくみとかが気になったので

この本を斜め流し読みしながらのメモ。

 

---------------------------

 

スクレイピング

・Webサイトから公開されているデータを収集し、そのデータから不要データを削りとり、実行者の意図した情報を抜き出す技術

・自分で記述したプログラム(pythonなど)を実行して、webサービスから好きなタイミングで自由に必要な情報を抽出できる

スクレイピング実行するときは法律に注意する

 

例:google

GooglebotとよばれるクローラがWebサイトを巡回して情報を収集している

その中から本文などのテキストや画像を抽出して検索エンジン利用者に検索サービスを提供している

 

RSS

Rich Site Summary

RSSリーダーを読み取ることで新着情報を得ることができる

例:Feedly,Inoreaderなど

 

このやり方は徐々に衰退しつつあり、

最近はスマホアプリのプッシュ通知、ブラウザーのWeb pushが使われる。

(web pushは主要なブラウザーのみ)

 

Pythonスクレイピングをやってみる準備

・Goolge Colaboratory

実行環境Jupyter Notebook構築ができるので少し試したいときに簡単に試すことができる

クラウド上のPythonなどをWebブラウザ上で記述・実行できる統合開発環境

 

robots.txt

Webサイトのクローリング制御しているファイル

サイトのドメインサイト直下のディレクトリーに置かれる