C#7の星空周遊

愛知県の山とベランダで星空撮影

スクレイパーのお試し結果

前記事で書いたWebスクレイパーOctoparse、Web scraper, Scraperの3つを試してみた。
Octoparse
無料版をインストールしても英語なのでビデオ
チュートリアルを見ないと操作は無理だ (有
料版は日本語バージョンあり)。半日やってみ
て何とか欲しいデータの抽出はやれるように
なったが、いい加減疲れた。
理由は分からないが多量のデータ抽出中に途
中でフリーズしてしまった。無料版での何ら
かの制限かと思われるが、データ抽出期間を
分割して処理すれば処理量は減るためフリー
ズは起こらない。
・Web scraper
Chrome拡張機能に追加して使う。
右クリックメニューの「検証」を選ぶと右図
のような画面になり、図の右下の青線のある
Web Scraperのクリックで操作画面になる。
読む込む項目設定して抽出を実行するのは
Octoparseと同様だ。データ抽出はするが
データフィールドが記事タイトルやエントリ
ーデータは横配列フィールドなのに、日付だ
け縦型で、これをExcelに入れてもデータ並び替え作業が不可欠で、とても使えた代物ではない。
・Scraper
これもChrome拡張機能に追加して使い、  
Web scraperと同様1ページ毎のデータ集めと
なる。上の2つのように集めたいデータを設
定する手順は無い。画面内のリンクデータも
テキストも欲しいデータはクリップボード
コピーでき、そのままExcelへ貼り付け可能な
ので操作はすこぶる楽だ。Octoparseの操作
方法を習熟している間にこのツールでExcel
ファイルは完成してしまう。

当ブログの過去記事データはOctoparseで抽出
し、Excelファイルに保存できた。次はこの
データを元に、前記事で書いたイメージの
検索アプリ(と言ってもExcelで行う)を作って
みる。なおスクレイパーの使い方は忘れそう
なため後日記事にしようと思う。