WEBスクレイピングツール import.io アプリケーション版使ってAmazonからデータ収集

WEBスクレイピングツール import.ioのアプリケーション版の使い方を紹介します。
今回は、import.ioをつかってアマゾンから以下のデータ収集方法を試します。

  • セラーID(ストアフロント)から抽出
  • キーワード検索から抽出
  • ベストセラーランキングから抽出

import.ioでは特別なWEBスクレピングの知識は不要です。
現在のところ、import.ioの使ったアマゾン抽出を解説した記事はほぼ存在しないと思いますので、
ぜひ役立ててください。

なお、import.ioって何?という方は先に以下の記事から目を通してください。

import.io

Screenshot of www.import.io

https://www.import.io/

importの4種類の抽出

WEBスクレイピングツール import.io アプリケーション版では4種類の抽出可能です。

Magic

Automatically extracts data from a web page using just a URL – no setup whatsoever
How to use Magic
Extractor API

もっとも簡易的な抽出方法です。URLを貼り付ける項目もツール自動で行われます。
WEB版同じような動きです。

Extractor

Lets you choose the data that you want from specified web pages via simple point-and-click – exactly the way you want it
How to use an Extractor
Comfortable with Magic and Extractor?
Crawler API

最も使う機会が多いのがこの機能です。
収集項目のカスタマイズができます。

Crawler

Explores the website to find all the data that you want from similar pages – handy if you don’t know all the URLs
How to use Crawler
Connector API

Connector

Lets you record a sequence of actions, such as a search, within a website to get to and extract the data that you want – Extractor with a macro

 

import.ioのExtractor機能を使ったアマゾンからのWEBスクレピング

Extractor機能を使って以下に3通りの方法を確かめていきます。

  • セラーID(ストアフロント)から抽出
  • キーワード検索から抽出
  • ベストセラーランキングから抽出

貼り付けた画像_2017_05_15_22_46

順位として、import.ioを起動します。
それでは順番に検証します。

セラーID(ストアフロント)から抽出

  1. アマゾンのストフロントを開きURLをコピーします。
    例)URL  https://www.amazon.com/s?marketplaceID=ATVPDKIKX0DER&me=A282CQLULN2Z2L&merchant=A282CQLULN2Z2L&redirect=true
  2. import.ioを開き画面右上の「New 」をクリックします。
    貼り付けた画像_2017_05_15_22_48
  3. import.ioのブラウザにURL貼り付けます、
    貼り付けた画像_2017_05_15_22_53
  4. ONクリックしましょう。
    貼り付けた画像_2017_05_15_22_55
  5. 取得する項目を選択します。
    タイトルを選択しました。
    貼り付けた画像_2017_05_15_22_56
  6. 「Many rows」をクリック
  7. 項目が追加されました。
     
    貼り付けた画像_2017_05_15_22_57
  8. 「New COLUNM 」をクリックいます。
    今回は抽出をシンプルにするために2項目だで試します。
    貼り付けた画像_2017_05_15_22_58
  9. 商品からレビュー部分を選択します、
    貼り付けた画像_2017_05_15_22_58
  10. 2項目にレビューが反映されました。
    ここまで、カラム1には商品名、カラム2には、レビュー数が入っています。
     貼り付けた画像_2017_05_15_22_59
  11. 名前を入力し「PUVLISH」をクリックします
    これで設定を保存することができます。
    貼り付けた画像_2017_05_15_23_00
  12. 設定した保存内容がメニュに追加されます。
    貼り付けた画像_2017_05_15_23_03
  13. ダウンロードができます。
    CSVかJZON形式でダウンロードできます。
  14. Exportデータの内容です。
    貼り付けた画像_2017_05_16_1_20
    商品タイトルのリンク先のURLも一緒に取得することができます。
    URLにはASINが含まれています。
    エクセルからマクロ書式を組めば、ASIN部分だけを別の列に取り出すことも可能です。

    https://www.amazon.com/PlayStation-DualShock-Charging-Station-japan/dp/B015ZM3TFU/ref=sr_1_1/145-6669780-1230052?m=A282CQLULN2Z2L&s=merchant-items&ie=UTF8&qid=1494856537&sr=1-1
  15. あとから編集することもできます。
    貼り付けた画像_2017_05_16_1_20

キーワード検索から抽出

  1. アマゾンでキーワード検索
    例 「並行輸入
    アマゾンで検索しURLをコピー
  2. import.ioを開き画面右上の「New 」をクリックします。
  3. クリック
  4. URLを貼り付け
  5. ON
  6. タイトルを選択
  7. 「Many rows」をクリック
  8. 項目が追加れます。
  9. 名前をつけて保存
    例「import 」>publishをクリック
    保存されるまで少し待ちます。
  10. 保存される
    メニューに戻ると保存されています。
    表示されていない場合、更新ボタンをクリックしてください。
  11. 抽出結果

 

ベストセラーランキングから抽出

 

  1. import.ioを開き画面右上の「New 」をクリックします。
    貼り付けた画像_2017_05_15_22_48
  2. import.ioのブラウザにURLを貼り付けます、
    ホーム&キッチン の 人気度ランキング

    https://www.amazon.co.jp/gp/movers-and-shakers/kitchen/ref=zg_bsms_kitchen_home_all?pf_rd_p=3d910440-0455-48cb-a0f9-58ba9fadf260&pf_rd_s=center-1&pf_rd_t=2301&pf_rd_i=home&pf_rd_m=AN1VRQENFRJN5&pf_rd_r=FTH1VRQRCWMDXXRAKJJ7&pf_rd_r=FTH1VRQRCWMDXXRAKJJ7&pf_rd_p=3d910440-0455-48cb-a0f9-58ba9fadf260
  3. 項目を選択します。
    ここでは以下の5項目を選択しましした。
    ・画像
    ・ランク数
    ・タイトル
    ・レビュー名
    ・価格の
  4. DONEで保存します。
  5. ダウンロードをクリックしダウンロード
  6. ダウンロード結果です。

まとめ

このツールを知るまでデータ収集に外注してプログラムを組んでもらっていました。
import.ioでは特別なスクレピングは知識は不要なので、自力必要なデータを集めることができます。

import.ioではうまく収集できないサイトがある場合はやはりプログラマーさんに頼る必要があります。
万能ではないのですが、データ収集して分析するのに役立つツールです。

有料版もありますが、無料版の範囲でも十分な抽出が可能です。

今回はimport.ioのExtractor機能を使った抽出方法を紹介しました。
CrawlerやConnectorを組み合わせるもっと行動な高度な抽出も可能です。

機会があればそちらも今後紹介します。

その他のスクレイピングツールは以下を確認してください。