不定期戯言2

スクレイピング

最近『Pythonによるスクレイピング＆機械学習』（クジラ飛行机著，ソシム）を読んでいる。題材として自分のサイトを使ってみたりする。たとえば過去の発表資料のページからタイトルを取得してみたり，このページのコンテンツをまとめてダウンロードしてみたり。今まで無駄にタイトルや日付をSPAN要素にしてCLASS名をつけていたのだけど，それが功を奏した感じだ。そうしてみると，このあたりも自動生成するようにしたいなあ。

最近のサイトは自動生成される部分が多いから，要素を指定して値を取得するのはやりやすいような気がする。少なくとも手書きのサイトよりは。

不定期戯言2

2019/02/09（Sat）

スクレイピング