不定期戯言2

戻る

検索条件:2019年2月9日 

2019/02/09(Sat)

スクレイピング

最近『Pythonによるスクレイピング&機械学習』(クジラ飛行机著,ソシム)を 読んでいる。題材として自分のサイトを使ってみたりする。 たとえば 過去の発表資料のページ からタイトルを取得してみたり,このページのコンテンツをまとめてダウンロードしてみたり。 今まで無駄にタイトルや日付をSPAN要素にしてCLASS名をつけていたのだけど, それが功を奏した感じだ。 そうしてみると,このあたりも自動生成するようにしたいなあ。

最近のサイトは自動生成される部分が多いから, 要素を指定して値を取得するのはやりやすいような気がする。 少なくとも手書きのサイトよりは。