スクレイピング・ハッキング・ラボ Pythonで自動化する未来型生活
Webのしくみとかが気になったので
この本を斜め流し読みしながらのメモ。
---------------------------
・Webサイトから公開されているデータを収集し、そのデータから不要データを削りとり、実行者の意図した情報を抜き出す技術
・自分で記述したプログラム(pythonなど)を実行して、webサービスから好きなタイミングで自由に必要な情報を抽出できる
・スクレイピング実行するときは法律に注意する
例:google
GooglebotとよばれるクローラがWebサイトを巡回して情報を収集している
その中から本文などのテキストや画像を抽出して検索エンジン利用者に検索サービスを提供している
Rich Site Summary
RSSリーダーを読み取ることで新着情報を得ることができる
例:Feedly,Inoreaderなど
このやり方は徐々に衰退しつつあり、
最近はスマホアプリのプッシュ通知、ブラウザーのWeb pushが使われる。
(web pushは主要なブラウザーのみ)
・Goolge Colaboratory
実行環境Jupyter Notebook構築ができるので少し試したいときに簡単に試すことができる
*クラウド上のPythonなどをWebブラウザ上で記述・実行できる統合開発環境
Webサイトのクローリング制御しているファイル