WEBスクレピングツール Octoparseのインストールと使い方

スポンサーリンク



Octoparseとは

WEBサイトのデータを抽出することができる無料スクレイピングツールです。

octoparse_1

Octoparseを使ってできること

  • ページ上のデータを抽出する
  • リストのリンク先もたどって取得する
  • ページネーションを辿ってリストデータを取得する
  • 複数のURLを指定してデータ取得する

Octoparseへの登録

Octoparseを利用するには、事前の登録が必要です。
登録は無料です。

1.Sign Up 

http://www.octoparse.com/ にアクセスし画面右上のSign Up をクリックします。

octoparse_sign_up_1

2.フォームに情報入力

「ユーザーネーム(User name)」、「パスワード(password)」、「メールアドレス(Email)」
を入力して最後に「Submit」をクリックします。

octoparse-sign-up_2 

3.確認メール

Octoparseから確認が届きます。
確認用のリンクをクリックすると登録完了します。

octoparse-sign-up_4

octoparse_sign_up_5

Octoparseのダウンロ ード

以下のURLからOctoparseのダウンロードを行います。

ttp://www.octoparse.com/download

 

octoparse_2

Octoparseのインストール

ダウンロードしたファイルを解答し
フォルダ内のsetup.exeを起動します。

octoparse_3

 

インストール完了画面

octoparse_4

Octoparseのインストールが正常に終了すると、
以下のショートカットがデスクトップに生成されます。

octoparse_5

Octoparseの起動

ツールを起動すると、ログイン画面が開きます。
Sign Upの手続きで登録した、ID、パスワードを入力します。

octoparse_login_1

Octoparseの使い方

Octoparseの3つ機能

  • スマートモード
  • Wizard mode(ウィザードモード)  -ウィザード形式で抽出データを指定するモード
  • Advanced mode(アドバンスドモード)- 自由に抽出データを指定できるモード

octoparse_use_1

スマートモード

スマートモードではURLを貼り付けるだけで簡単に項目の抽出ができます。

スマートモードの使い方

  1. URLを検索ボックスに貼り付け、「スマート」 ボタンクリック
    ツールが自動で項目を判定し、テーブルに変換します。
  2. ダウンロード方法
    「Export to Excel」をクリックします。
    Excel(3ページの制限)としてダウンロードされます。

Wizard mode(ウィザードモード) 

Wizard mode(ウィザードモード) の使い方を説明します。

  1. Createをクリック
  2. 「Wizard mode(ウィザードモード)」の「Start」ボタンをクリックしてください。
  3. タスク名を入力
    タスク名をつけて「Next」ボタンをクリックします。
  4. URLを入力
    スクレイピングするページのURLを入力して「Next」ボタンを押します。

    https://www.amazon.com/Best-Sellers-Toys-Games/zgbs/toys-and-games/ref=zg_bs_toys-and-games_home_all?pf_rd_p=089b8285-7691-4849-a7f5-b2fca56bf24a&pf_rd_s=center-1&pf_rd_t=2101&pf_rd_i=home&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=HRK7EXN9VJZ6S1BED9D1&pf_rd_r=HRK7EXN9VJZ6S1BED9D1&pf_rd_p=089b8285-7691-4849-a7f5-b2fca56bf24a&tag=wwwwarriorsof-20

    ページが表示されます。
  5. リストの定義

    リストの定義は、HTML要素を2つを選択します。
    リストデータ部分のHTML要素上でマウスオーバーすると、背景が水色に表示されるのでクリックして選択します。


    2つ目のリスト要素を選択すると、3目以降のリスト情報が抽出されます。

    Next」ボタンをクリックします。

  6. ページネーションの設定
    複数にわたるページを遷移しながらデータをスクレイピングしていくために、ページネーションの設定を行います。

    「EnablePagenation」を選択します。
    次にブラウザ部分でサイトのページネーション部分を表示させ、「次のページへ行くためのリンク」を選択します。
    「Next」ボタンを押します。

  7. 抽出データの選択

    抽出するデータの選択を行います。
    タイトル部分にマウスオーバーすると、背景が水色になるのでクリックします。
    「Next」ボタンをクリックします。

  8. タスクの実行
    ローカルクライアント上でスクレイピングを行う場合、「Local Extraction(ローカル抽出)」を選択します。

    抽出を待ちます。

他のWEBスクレピングツールも紹介しています。

悪用厳禁!プログラミング知識の不要のWEBスクレイピングツール - Amazon輸出・輸入・ebay・越境EC 攻略ブログ
  プログラミング知識の不要のWEBスクレイピングツールの紹介します。 これらのツールを使うことで、 スクレイピング用のコードを記述しなくともデータの取得がで...

この記事が参考になりましたら、ぜひ「いいね!」、シェアをお願いします。
Pocket
[`evernote` not found]