無料で使えるWEBスクレピングツール Octoparseのインストール方法を使い方を紹介します。
目次
WEBスクレピングとは?
ウェブスクレイピングとはWeb上のデータを抽出することを言います。
インターネット上から手作業でコピー&ペーストデータを修正していくExcel等でリストを作っていくことも広い意味ではWEBスクレイピングです。
通常、ウェブスクレイピングと言ったら、プログラミング言語でコードを書き、データを収集していくことを指します。
スクレイピングに使われる主なプログラミング言語はPython、Rubyです。
どちらのプログラミング言語にWebスクレイピングに適したライブラリが用意されています。
ライブラリとは特定の機能を持ったコードの集まりのことです。ライブラリを使うことで全くの0からではなくスクレイピングのコードを書いていくことができます。
今回紹介する、OctoparseではGUIで操作するため一切プログラミングコードを書くことなくスクレイピングができます。
Octoparseとは?
WEBサイトのデータを抽出することができる無料スクレイピングツールです。
Octoparseでは特別なプログラミング知識は必要とせず、WEB上からデータの抽出が必要です。
無調で利用できるフリーソフトです。
OctoparseはWindows用のアプリケーションです。以下の環境で利用できます。
MacOSには対応していません。
1) Windows XP, 7, 8, and 10
2) Microsoft .NET Framework 3.5 service pack 1(.NET3.5 SP1) required
Octoparseを使ってできること
- ページ上のデータを抽出する
- リストのリンク先もたどって取得する
- ページネーションを辿ってリストデータを取得する
- 複数のURLを指定してデータ取得する
Octoparseへの登録
Octoparseを利用するには、事前の登録が必要です。
登録は無料です。
1.Sign Up
http://www.octoparse.com/ にアクセスし画面右上のSign Up をクリックします。
2.フォームに情報入力
「ユーザーネーム(User name)」、「パスワード(password)」、「メールアドレス(Email)」
を入力して最後に「Submit」をクリックします。
3.確認メール
Octoparseから確認が届きます。
確認用のリンクをクリックすると登録完了します。
Octoparseのダウンロ ード
以下のURLからOctoparseのダウンロードを行います。
ttp://www.octoparse.com/download
Octoparseのインストール
ダウンロードしたファイルを展開しフォルダ内のsetup.exeを起動します。
インストール完了画面
Octoparseのインストールが正常に終了すると、
以下のショートカットがデスクトップに生成されます。
Octoparseの起動
Octoparseを起動すると、ログイン画面が開きます。
Sign Upの手続きで登録した、ID、パスワードを入力、「Login」ボタンをクリックします。
Octoparseの使い方
Octoparseの使い方の使い方について説明します。
Octoparseの3つ機能
Octoparseは大きく分けて3つ機能に分かれています。
- スマートモード
- Wizard mode(ウィザードモード) -ウィザード形式で抽出データを指定するモード
- Advanced mode(アドバンスドモード)- 自由に抽出データを指定できるモード
スマートモード
スマートモードではURLを貼り付けるだけで簡単に項目の抽出ができます。
スクレイピング項目の反映は自動で行われます。
スマートモードの使い方
- URLを検索ボックスに貼り付け、「スマート」 ボタンクリック
ツールが自動で項目を判定し、テーブルに変換します。
- ダウンロード方法
「Export to Excel」をクリックします。
Excel(3ページの制限)としてダウンロードされます。
Wizard mode(ウィザードモード)
Wizard mode(ウィザードモード) の使い方を説明します。
- Createをクリック
- 「Wizard mode(ウィザードモード)」の「Start」ボタンをクリックしてください。
- タスク名を入力
タスク名をつけて「Next」ボタンをクリックします。
- URLを入力
スクレイピングするページのURLを入力して「Next」ボタンを押します。
例
https://www.amazon.com/Best-Sellers-Toys-Games/zgbs/toys-and-games/ref=zg_bs_toys-and-games_home_all?pf_rd_p=089b8285-7691-4849-a7f5-b2fca56bf24a&pf_rd_s=center-1&pf_rd_t=2101&pf_rd_i=home&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=HRK7EXN9VJZ6S1BED9D1&pf_rd_r=HRK7EXN9VJZ6S1BED9D1&pf_rd_p=089b8285-7691-4849-a7f5-b2fca56bf24a&tag=wwwwarriorsof-20
ページが表示されます。
- リストの定義
リストの定義は、HTML要素を2つを選択します。
リストデータ部分のHTML要素上でマウスオーバーすると、背景が水色に表示されるのでクリックして選択します。 - ページネーションの設定
ページネーションとは複数のページにまたがるページのことです。
複数にわたるページを遷移しながらデータをスクレイピングしていくために、ページネーションの設定を行います。「EnablePagenation」を選択します。
次にブラウザ部分でサイトのページネーション部分を表示させ、「次のページへ行くためのリンク」を選択します。
「Next」ボタンを押します。
抽出データの選択
抽出するデータの選択を行います。
タイトル部分にマウスオーバーすると、背景が水色になるのでクリックします。
「Next」ボタンをクリックします。
- タスクの実行
ローカルクライアント上でスクレイピングを行う場合、「Local Extraction(ローカル抽出)」を選択します。
抽出を待ちます。
最後に
無料で使えるWEBスクレピングツール Octoparseのインストール方法と使い方を紹介しました。
その他のWEBスクレピングツールも紹介しています。「悪用厳禁!プログラミング知識の不要のWEBスクレイピングツール 比較19選」をチェックしてください、