スクレイピング
最近『Pythonによるスクレイピング&機械学習』(クジラ飛行机著,ソシム)を読んでいる。題材として自分のサイトを使ってみたりする。たとえば過去の発表資料のページからタイトルを取得してみたり,このページのコンテンツをまとめてダウンロードしてみたり。今まで無駄にタイトルや日付をSPAN要素にしてCLASS名をつけていたのだけど,それが功を奏した感じだ。そうしてみると,このあたりも自動生成するようにしたいなあ。
最近のサイトは自動生成される部分が多いから,要素を指定して値を取得するのはやりやすいような気がする。少なくとも手書きのサイトよりは。
コメントの受付は終了しました。