無料! WEBスクレピングツール Octoparseのインストール方法と使い方

無料で使えるWEBスクレピングツール Octoparseのインストール方法を使い方を紹介します。

WEBスクレピングとは?

ウェブスクレイピングとはWeb上のデータを抽出することを言います。

インターネット上から手作業でコピー&ペーストデータを修正していくExcel等でリストを作っていくことも広い意味ではWEBスクレイピングです。

通常、ウェブスクレイピングと言ったら、プログラミング言語でコードを書き、データを収集していくことを指します。

スクレイピングに使われる主なプログラミング言語はPython、Rubyです。
どちらのプログラミング言語にWebスクレイピングに適したライブラリが用意されています。

ライブラリとは特定の機能を持ったコードの集まりのことです。ライブラリを使うことで全くの0からではなくスクレイピングのコードを書いていくことができます。

今回紹介する、OctoparseではGUIで操作するため一切プログラミングコードを書くことなくスクレイピングができます。

Octoparseとは?

WEBサイトのデータを抽出することができる無料スクレイピングツールです。

octoparse_1

Octoparseでは特別なプログラミング知識は必要とせず、WEB上からデータの抽出が必要です。

無調で利用できるフリーソフトです。

OctoparseはWindows用のアプリケーションです。以下の環境で利用できます。
MacOSには対応していません。

1) Windows XP, 7, 8, and 10
2) Microsoft .NET Framework 3.5 service pack 1(.NET3.5 SP1) required

Octoparseを使ってできること

  • ページ上のデータを抽出する
  • リストのリンク先もたどって取得する
  • ページネーションを辿ってリストデータを取得する
  • 複数のURLを指定してデータ取得する

Octoparseへの登録

Octoparseを利用するには、事前の登録が必要です。
登録は無料です。

1.Sign Up 

http://www.octoparse.com/ にアクセスし画面右上のSign Up をクリックします。

octoparse_sign_up_1

2.フォームに情報入力

「ユーザーネーム(User name)」、「パスワード(password)」、「メールアドレス(Email)」
を入力して最後に「Submit」をクリックします。

octoparse-sign-up_2 

3.確認メール

Octoparseから確認が届きます。
確認用のリンクをクリックすると登録完了します。

octoparse-sign-up_4 octoparse_sign_up_5

Octoparseのダウンロ ード

以下のURLからOctoparseのダウンロードを行います。

ttp://www.octoparse.com/download

octoparse_2

Octoparseのインストール

ダウンロードしたファイルを展開しフォルダ内のsetup.exeを起動します。

octoparse_3

 

インストール完了画面

octoparse_4

Octoparseのインストールが正常に終了すると、
以下のショートカットがデスクトップに生成されます。

octoparse_5

Octoparseの起動

Octoparseを起動すると、ログイン画面が開きます。
Sign Upの手続きで登録した、ID、パスワードを入力、「Login」ボタンをクリックします。

octoparse_login_1

Octoparseの使い方

Octoparseの使い方の使い方について説明します。

Octoparseの3つ機能

Octoparseは大きく分けて3つ機能に分かれています。

  • スマートモード
  • Wizard mode(ウィザードモード)  -ウィザード形式で抽出データを指定するモード
  • Advanced mode(アドバンスドモード)- 自由に抽出データを指定できるモード

octoparse_use_1

スマートモード

スマートモードではURLを貼り付けるだけで簡単に項目の抽出ができます。
スクレイピング項目の反映は自動で行われます。

スマートモードの使い方

  1. URLを検索ボックスに貼り付け、「スマート」 ボタンクリック
    ツールが自動で項目を判定し、テーブルに変換します。
  2. ダウンロード方法
    「Export to Excel」をクリックします。
    Excel(3ページの制限)としてダウンロードされます。

Wizard mode(ウィザードモード) 

Wizard mode(ウィザードモード) の使い方を説明します。

  1. Createをクリック
  2. 「Wizard mode(ウィザードモード)」の「Start」ボタンをクリックしてください。
  3. タスク名を入力
    タスク名をつけて「Next」ボタンをクリックします。
  4. URLを入力
    スクレイピングするページのURLを入力して「Next」ボタンを押します。

    https://www.amazon.com/Best-Sellers-Toys-Games/zgbs/toys-and-games/ref=zg_bs_toys-and-games_home_all?pf_rd_p=089b8285-7691-4849-a7f5-b2fca56bf24a&pf_rd_s=center-1&pf_rd_t=2101&pf_rd_i=home&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=HRK7EXN9VJZ6S1BED9D1&pf_rd_r=HRK7EXN9VJZ6S1BED9D1&pf_rd_p=089b8285-7691-4849-a7f5-b2fca56bf24a&tag=wwwwarriorsof-20

    ページが表示されます。
  5. リストの定義

    リストの定義は、HTML要素を2つを選択します。
    リストデータ部分のHTML要素上でマウスオーバーすると、背景が水色に表示されるのでクリックして選択します。


    2つ目のリスト要素を選択すると、3目以降のリスト情報が抽出されます。

    Next」ボタンをクリックします。

  6. ページネーションの設定
    ページネーションとは複数のページにまたがるページのことです。
    複数にわたるページを遷移しながらデータをスクレイピングしていくために、ページネーションの設定を行います。

    「EnablePagenation」を選択します。
    次にブラウザ部分でサイトのページネーション部分を表示させ、「次のページへ行くためのリンク」を選択します。
    「Next」ボタンを押します。

  7. 抽出データの選択

    抽出するデータの選択を行います。
    タイトル部分にマウスオーバーすると、背景が水色になるのでクリックします。
    「Next」ボタンをクリックします。

  8. タスクの実行
    ローカルクライアント上でスクレイピングを行う場合、「Local Extraction(ローカル抽出)」を選択します。

    抽出を待ちます。

最後に

無料で使えるWEBスクレピングツール Octoparseのインストール方法と使い方を紹介しました。

その他のWEBスクレピングツールも紹介しています。「悪用厳禁!プログラミング知識の不要のWEBスクレイピングツール 比較19選」をチェックしてください、