不定期戯言

« | 2019 | Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec | »

2019.02.09 (Sat)

スクレイピング

最近『Pythonによるスクレイピング＆機械学習』（クジラ飛行机著，ソシム）を読んでいる。題材として自分のサイトを使ってみたりする。たとえば過去の発表資料のページからタイトルを取得してみたり，このページのコンテンツをまとめてダウンロードしてみたり。今まで無駄にタイトルや日付をSPAN要素にしてCLASS名をつけていたのだけど，それが功を奏した感じだ。そうしてみると，このあたりも自動生成するようにしたいなあ。

最近のサイトは自動生成される部分が多いから，要素を指定して値を取得するのはやりやすいような気がする。少なくとも手書きのサイトよりは。

コメント(0)

コメントの受付は終了しました。