WEBスクレイピングツール import.ioのアプリケーション版の使い方を紹介します。
今回は、import.ioをつかってアマゾンから以下のデータ収集方法を試します。
- セラーID(ストアフロント)から抽出
- キーワード検索から抽出
- ベストセラーランキングから抽出
import.ioでは特別なWEBスクレピングの知識は不要です。
現在のところ、import.ioの使ったアマゾン抽出を解説した記事はほぼ存在しないと思いますので、
ぜひ役立ててください。
なお、import.ioって何?という方は先に以下の記事から目を通してください。
目次
import.io
importの4種類の抽出
WEBスクレイピングツール import.io アプリケーション版では4種類の抽出可能です。
Magic
Automatically extracts data from a web page using just a URL – no setup whatsoever
How to use Magic
Extractor API
もっとも簡易的な抽出方法です。URLを貼り付ける項目もツール自動で行われます。
WEB版同じような動きです。
Extractor
Lets you choose the data that you want from specified web pages via simple point-and-click – exactly the way you want it
How to use an Extractor
Comfortable with Magic and Extractor?
Crawler API
最も使う機会が多いのがこの機能です。
収集項目のカスタマイズができます。
Crawler
Explores the website to find all the data that you want from similar pages – handy if you don’t know all the URLs
How to use Crawler
Connector API
Connector
Lets you record a sequence of actions, such as a search, within a website to get to and extract the data that you want – Extractor with a macro
import.ioのExtractor機能を使ったアマゾンからのWEBスクレピング
Extractor機能を使って以下に3通りの方法を確かめていきます。
- セラーID(ストアフロント)から抽出
- キーワード検索から抽出
- ベストセラーランキングから抽出
順位として、import.ioを起動します。
それでは順番に検証します。
セラーID(ストアフロント)から抽出
- アマゾンのストフロントを開きURLをコピーします。
例)URL https://www.amazon.com/s?marketplaceID=ATVPDKIKX0DER&me=A282CQLULN2Z2L&merchant=A282CQLULN2Z2L&redirect=true - import.ioを開き画面右上の「New 」をクリックします。
- import.ioのブラウザにURL貼り付けます、
- ONクリックしましょう。
- 取得する項目を選択します。
タイトルを選択しました。
- 「Many rows」をクリック
- 項目が追加されました。
- 「New COLUNM 」をクリックいます。
今回は抽出をシンプルにするために2項目だで試します。
- 商品からレビュー部分を選択します、
- 2項目にレビューが反映されました。
ここまで、カラム1には商品名、カラム2には、レビュー数が入っています。
- 名前を入力し「PUVLISH」をクリックします
これで設定を保存することができます。
- 設定した保存内容がメニュに追加されます。
- ダウンロードができます。
CSVかJZON形式でダウンロードできます。 - Exportデータの内容です。
商品タイトルのリンク先のURLも一緒に取得することができます。
URLにはASINが含まれています。
エクセルからマクロ書式を組めば、ASIN部分だけを別の列に取り出すことも可能です。https://www.amazon.com/PlayStation-DualShock-Charging-Station-japan/dp/B015ZM3TFU/ref=sr_1_1/145-6669780-1230052?m=A282CQLULN2Z2L&s=merchant-items&ie=UTF8&qid=1494856537&sr=1-1 - あとから編集することもできます。
キーワード検索から抽出
- アマゾンでキーワード検索
例 「並行輸入」
アマゾンで検索しURLをコピー
- import.ioを開き画面右上の「New 」をクリックします。
- クリック
- URLを貼り付け
- ON
- タイトルを選択
- 「Many rows」をクリック
- 項目が追加れます。
- 名前をつけて保存
例「import 」>publishをクリック
保存されるまで少し待ちます。
- 保存される
メニューに戻ると保存されています。
表示されていない場合、更新ボタンをクリックしてください。
- 抽出結果
ベストセラーランキングから抽出
- import.ioを開き画面右上の「New 」をクリックします。
- import.ioのブラウザにURLを貼り付けます、
ホーム&キッチン の 人気度ランキングhttps://www.amazon.co.jp/gp/movers-and-shakers/kitchen/ref=zg_bsms_kitchen_home_all?pf_rd_p=3d910440-0455-48cb-a0f9-58ba9fadf260&pf_rd_s=center-1&pf_rd_t=2301&pf_rd_i=home&pf_rd_m=AN1VRQENFRJN5&pf_rd_r=FTH1VRQRCWMDXXRAKJJ7&pf_rd_r=FTH1VRQRCWMDXXRAKJJ7&pf_rd_p=3d910440-0455-48cb-a0f9-58ba9fadf260 - 項目を選択します。
ここでは以下の5項目を選択しましした。
・画像
・ランク数
・タイトル
・レビュー名
・価格の
- DONEで保存します。
- ダウンロードをクリックしダウンロード
- ダウンロード結果です。
まとめ
このツールを知るまでデータ収集に外注してプログラムを組んでもらっていました。
import.ioでは特別なスクレピングは知識は不要なので、自力必要なデータを集めることができます。
import.ioではうまく収集できないサイトがある場合はやはりプログラマーさんに頼る必要があります。
万能ではないのですが、データ収集して分析するのに役立つツールです。
有料版もありますが、無料版の範囲でも十分な抽出が可能です。
今回はimport.ioのExtractor機能を使った抽出方法を紹介しました。
CrawlerやConnectorを組み合わせるもっと行動な高度な抽出も可能です。
機会があればそちらも今後紹介します。
その他のスクレイピングツールは以下を確認してください。