プログラミング不要!URL入力で簡単データ抽出できるWEBスクレイピングツール import.ioの使い方

使い方が簡単な無料のWEBサービス「import.io」を紹介します。

import.ioとは

import_1

import.ioとはURLを入力するだけで、WEBサイトのデータを抽出することができる無料スクレイピングツールです。

URLを入力すると、自動でデータ箇所を判別し情報を収集ができるスクレイピングサービスです。

無料から利用することができます。より大規模の収集を行う場合、有料版も用意されています。

 

import.io

import.ioの特徴

データと画像の自動抽出

URLを入力でデータと画像の自動抽出

クラウドベース

クラウドベースで動作します。インストールは不要です。

Casinos in the UK

コーディングなし

項目をクリックして選択し保存できます。
WEBスクレイピングの知識がない、ノンプログラマーでも利用できます。

パブリックAPI

検索クエリをAPIとして保存し
他の検索クエリを読み出し組み合わせて抽出することができます。

フレキシブルなスケジューリング

毎週、毎日、毎時、等データ抽出のスケジュールを設定することができます。

プログラム学習をせずにデータを抽出する

import.ioの価格プラン

import.ioの価格プランは4タイプ用意されています。

  • トライアル:無料
  • エッセンシャル:299ドル 5000クエリ
  • プロフェッショナル: 1999ドル 100000クエリ クエリ1年間有効
  • 企業:4999ドル 50000クエリ クエリが1年間有効

import.ioの価格プラン

 

WEB版とアプリケーション版

import.ioの提供形態は2種類です。

  • クラウド版
  • デスクトップアプリケーション版

クラウド版

WEB上で利用できます。

デスクトップアプリケーション版

項目の指定、抽出方法など、複数URLからの抽出など、WEB版に比べより高度が抽出ができます。

import.io WEB版の使い方

import.ioクラウド版へのログイン

  1. import.ioにアクセス
  2. 画面右上の「Log in」ログインをクリックします。
    貼り付けた画像_2017_05_15_21_55
  3. グーグルアカウントからログインできます。
    貼り付けた画像_2017_05_15_21_56
  4. ダッシュボードに移動
    貼り付けた画像_2017_05_15_22_00
  5. 以上でログインは完了です。

「import.io」クラウド版の基本的な使い方①データ自動取得

「import.io」の基本的なクラウド版の使い方を説明します。
使い方といってもURLをコピー&ペーストするだけなので、難しいことはありません。

データの収集

  1. データ収集したい対象サイトを開く
    例)
    ヤマダウェブコム
    www.yamada-denkiweb.com
    import_yamada
  2. ブラウザのアドレスバーからURLをコピーします。
    Macショートカットキー:⌘+C
  3. import.ioにログイン後の画面から「New Extractor」をクリックします。
  4. URLをペースト(貼り付け)、「Go」をクリックします。
    Macショートカットキー:⌘+V
  5. ページの情報を自動判別しリスト化されます。
    以下のように商品画像、タイトル、価格など自動で判定し収集されました。

取得データの保存

  1. 画面右上の「Save」をクリックします。
  2. 保存名を入力し、「Save and run」をクリックします。
  3. 保存を待ちます。
  4. import.ioの管理画面に保存されます。
    その都度収集しなおさなくても、ここからデータにアクセスできます。
  5. スクレイピングしたデータの確認
    「プレビューデータ」ボタン

スクレピングデータのエクスポート

取得したデータはCSVとしてエクスポートすることもできます。
エクスポートデータの形式は2通りです。

  • JSON
  • CSV

CSVのエクスポートを方法を解説します。

  1. 画面の右上にあるダウンロードボタンをクリックします。
  2. 「CSV」を選択します。
  3. データがダウンロードされました。

Mac版のエクセルの「文字化け」対応

エクスポートデータをMac版のエクセルで開くと「文字化け」します。

対応方法は以下の記事を参考にしてください。

 

MacのエクセルでCSVをファイルを開き文字化けとなったときの対処法 – Amazon輸出・輸入・ebay・越境EC 攻略ブログ
  MacのエクセルでCSVをファイルを開き文字化けとなったときの対処法を解説します。 文字化けするのは文字コードが原因となっている可能性が高いです。 これを解消…

Amazon輸出・輸入・ebay・越境EC 攻略ブログ

 

「import.io」クラウド版の基本的な使い方②項目指定

「import.io」のクラウド版で項目指定でスクレピングする使い方を説明します。

この例では、ヨドバシカメラで「任天堂」で検索した結果から「商品名」「価格」を収集します。

取得目的「商品名」と「価格」

取得目的「商品名」と「価格」

データの収集

  1. データ収集したい対象サイトを開く
    例)
    http://www.yodobashi.com/?word=%E4%BB%BB%E5%A4%A9%E5%A0%82
  2. ブラウザのアドレスバーからURLをコピーします。
    http://www.yodobashi.com/?word=%E4%BB%BB%E5%A4%A9%E5%A0%82

    Macショートカットキー:⌘+C

  3. import.ioにログイン後の画面から「New Extractor」をクリックします。
  4. URLをペースト(貼り付け)、「Go」をクリックします。
    Macショートカットキー:⌘+V
  5. データ収集を待ちます
    データ収集中は以下の画面が表示されます。
  6. ページの情報を自動判別しリスト化されます。
  7. 「Edit」タブの「Start over with empty」をクリックしデータをクリアします。
    今回は取得項目を指定するため、一旦自動反映の「Start over with empty」でデータを消去します。

商品名の取得

  1. 項目名の決定
    任意の項目を入力します。
    例)name
  2. 取得項目の指定(商品名)
    まずは商品名を選択します。
    1つめの商品名と2つめの商品名をクリックします。
    2個所選択すると、3つ目以降の商品名も自動取得されます。
  3. 取得データの確認
    「Date」タブをクリックするとここまでの取得データを確認できます。

価格の取得

続いて、価格を取得します。

  1. 価格の取得
    「Edit」タブの「Add colum」をクリックします。
  2. 項目に名前を付けます。
    例) price
  3. 項目の選択
    1つめの商品価格2つめの商品価格をクリックします。
    2個所選択すると、3つ目以降の商品価格も自動取得されます。
  4. 「Date」タブをクリックすると取得データが確認できます。

データの保存

  1. 「Save」からデータを保存します。
  2. 名前を決め、「save and run」をクリック
  3. 保存されました。

取得データの編集

保存した後でも再度データ編集することができます。

  1. 「Edit」をクリックします。
  2. 編集画面への遷移をまちます。
  3. 編集画面を移動
    編集画面へ移動しました。ここで、項目を追加したり、削除することができます。

複数のURLから取得する方法

import.ioアプリケーション版

アプリケーション版ではWEB版に比べ、より高度なデータ抽出ができます。

例えば。WEB版ではimport.ioではデータ箇所を自動判定ですが、
アプリケーション版では項目のカスタマイズも可能です。

アプリケーション版の特徴

アプリケーション版には主に以下の特徴を持っています。

  • アカウントの登録が必要(googleのアカウント、githubで可能)
  • スクレイピングのルールをAPIとして登録できる
  • APIを複数のウェブページに適応し、まとめて実行し、1つのCSVとしてDLできる

アプリケーション版のインストール

アプリケーション版のインストールは以下の手順で行います。

ダウンロード
https://www.import.io/standard-plans/

 

画面
import-io_5

 

 

import.ioWEBの検索例 アマゾンからキーワード検索で抽出する方法

  1. アマゾンでキーワード検索
    検索 キーワード「japan import」での抽出例
  2. URLをコピー
    URL:https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=japna+import

    貼り付けた画像_2017_05_15_22_06

  3. 「New Extractor」をクリックします。
    貼り付けた画像_2017_05_15_22_03
  4. URLを貼り付け、「GO」をクリックします。
    貼り付けた画像_2017_05_15_22_03
  5. 抽出を待ちます。
    貼り付けた画像_2017_05_15_22_03
  6. 抽出結果が表示されます。
    貼り付けた画像_2017_05_15_22_04
  7. Editタブでは抽出情報の編集ができます。
    貼り付けた画像_2017_05_15_22_08
  8. 保存するにはSaveをクリックします。
    貼り付けた画像_2017_05_15_22_08
  9. 名前をつけ保存します。
    貼り付けた画像_2017_05_15_22_09
  10. メニューに追加されました。

    貼り付けた画像_2017_05_15_22_10

まとめ

通常、WEBスクレピングには専門のプログラミング知識を必要とします。
しかい、URLのコピペで簡単に収集できるのがimport.ioの大きな特徴です。

物販に活用するなら、マーケティング、価格調査、在庫調査など様々な用途での使用が想定できますね。
ぜひ、データの分析に役立てましょう。
また、こうしたスクレイピングツールはimport.ioだけではありません。

他のスクレイピングツールについては、「悪用厳禁!プログラミング知識の不要のWEBスクレイピングツール 19選」で紹介しています。