不定期戯言

戻る

2019.02.09 (Sat)

スクレイピング

・最近『Pythonによるスクレイピング&機械学習』(クジラ飛行机著,ソシム)を読んでいる。題材として自分のサイトを使ってみたりする。たとえば過去の発表資料のページからタイトルを取得してみたり,このページのコンテンツをまとめてダウンロードしてみたり。今まで無駄にタイトルや日付をSPAN要素にしてCLASS名をつけていたのだけど,それが功を奏した感じだ。そうしてみると,このあたりも自動生成するようにしたいなあ。

・最近のサイトは自動生成される部分が多いから,要素を指定して値を取得するのはやりやすいような気がする。少なくとも手書きのサイトよりは。

コメント(0)

コメントの受付は終了しました。