スクレイピング
最近『Pythonによるスクレイピング&機械学習』(クジラ飛行机著,ソシム)を 読んでいる。題材として自分のサイトを使ってみたりする。 たとえば 過去の発表資料のページ からタイトルを取得してみたり,このページのコンテンツをまとめてダウンロードしてみたり。 今まで無駄にタイトルや日付をSPAN要素にしてCLASS名をつけていたのだけど, それが功を奏した感じだ。 そうしてみると,このあたりも自動生成するようにしたいなあ。
最近のサイトは自動生成される部分が多いから, 要素を指定して値を取得するのはやりやすいような気がする。 少なくとも手書きのサイトよりは。