C#7の星空周遊

愛知県の山とベランダで星空撮影

日記風ブログでのOctoparseの使い方

もう少しで長かった梅雨も終わりそうだが、月あり時期になってしまって何ともだ。しかし8月の遠征実績は少なく1~2回が関の山で、昨年などは遠征0回と酷くて行けたら幸いと言う事になる。
先日の天体ブログ記事データ検索アプリに関連して、Webからブロク記事データを抽出するスクレイパーソフトOctoparseに手も焼きながら使い方が習得できたので使い方をまとめた。データ抽出も終わってしまうともうOctoparseを使う事は無さそうだが、日記風ブログ記事で過去記事データ抽出をやってみたい方には、このOctoparseはお勧めソフトだ。
◆ダウンロード、インストール方法   
Webで検索すればダウンロードサイトや 
インストール手順紹介のサイトは直ぐ見つか
るので割愛する。

◆初期設定               
Octoparseの起動画面(右図)で、最初に右側の
「Advanced Mode」で「+task」をクリック
する。
次の画面で、ブログのURLデータを入力する。
ここで注意したいのは、抽出するデータ数が
多いとOctoparseは動作不安定を起してフリ
ーズや抽出データの欠落を起こす可能性が 
ある。
私はこのトラブルに遭い、一気のデータ抽出
は止めて、分割方式でのデータ抽出にした。 
具体的には当ブログではアーカイブ方式と
なっていて、1ケ月間の記事全数がWebの
1ページ内に掲載され、ページをめくって
行けば1年間のデータが抽出できる。

4年間なので4回に分割したデータ抽出とな
った。
◆抽出データの設定           
URLデータを入力してOKを押すと、右図の
ように下半分にブログ(アーカイブ画面)が
表示される。
このWeb画面には、1ケ月分の全記事データ
があり、投稿日・タイトル・各記事のリンク
先URLなど必要なデータが得られた。
記事管理で使うにはこの程度で十分だ。


次の図は、抽出したいデータを選択する画 
面で、記事タイトル設定で先頭記事と次の記
事のタイトルをクリックすると、そのページ
全記事のタイトルが選択される。
日付データは先頭記事の所でクリックすれば
全記事日付データも選択された状態になる。
選択された内容は図内で書いたように直ぐ
確認可能で分かり易い。

選択が終わって「Extract data」をクリックす
ると、右図のように画面上半分にはダイアグ
ラムとデータの並び方リストが表示される。
データ並びはこの画面でも変更できるが、デ
ータ抽出後の結果出力はExcelデータなので、
後でも変更はできる。
         
1ページ内の抽出項目の設定が終わったら、次はベージをめくって前月
ページにアクセスする設定を行う必要がある。ここまでの選択設定は保
存されているので、一旦右図に書いてあるシャッフルアイコンを押して
次の項目選択がやれる状態にしないといけない。
実はこのシャッフル操作のやり方が分からず、トラブって次へ中々進め
ず苦労した。
次の項目選択とは、ここまでの設定は、最初の月の全記事データ抽出で
あり、前の月までは含まれていない。つまり前の月のデータへアクセス
するような設定が必要になる。




右図のように、アーカイブ画面の一番下にあ
る「次のページ」のリンクデータを取得する
ように設定する。
このリンク設定で1年間のアーカイブ内の
記事データ全てが選択された状態となる。
「Loop clik the selected link」をクリック
すると、画面上半分にあるダイアグラム
が次の図のようになる。

この設定でOKなら「Save」ボタンを押す。 
と言っても実際やってみるまで、どんな結果
になるかは分からない。
前述したように最初に4年間データ抽出を
やったらフリーズし、2年間分にしたら
データ欠損と言う有様で、データ欠損も所々
だと中々気付かない。
月度毎の記事数をチェックしていて欠損に気
づいた。
◆データ抽出
上の図内に書いてある通り、
「Start Extraction 」をクリックするとデータ
抽出を開始し、記事数100件程度なら5分もか
からず終了する。Excelファイルでの出力なので、後の処理はやり易い。