使い方が簡単な無料のWEBサービス「import.io」を紹介します。
目次
import.ioとは
import.ioとはURLを入力するだけで、WEBサイトのデータを抽出することができる無料スクレイピングツールです。
URLを入力すると、自動でデータ箇所を判別し情報を収集ができるスクレイピングサービスです。
無料から利用することができます。より大規模の収集を行う場合、有料版も用意されています。
import.ioの特徴
データと画像の自動抽出
URLを入力でデータと画像の自動抽出
クラウドベース
クラウドベースで動作します。インストールは不要です。
コーディングなし
項目をクリックして選択し保存できます。
WEBスクレイピングの知識がない、ノンプログラマーでも利用できます。
パブリックAPI
検索クエリをAPIとして保存し
他の検索クエリを読み出し組み合わせて抽出することができます。
フレキシブルなスケジューリング
毎週、毎日、毎時、等データ抽出のスケジュールを設定することができます。
プログラム学習をせずにデータを抽出する
import.ioの価格プラン
import.ioの価格プランは4タイプ用意されています。
WEB版とアプリケーション版
import.ioの提供形態は2種類です。
- クラウド版
- デスクトップアプリケーション版
クラウド版
WEB上で利用できます。
デスクトップアプリケーション版
項目の指定、抽出方法など、複数URLからの抽出など、WEB版に比べより高度が抽出ができます。
import.io WEB版の使い方
import.ioクラウド版へのログイン
- import.ioにアクセス
- 画面右上の「Log in」ログインをクリックします。
- グーグルアカウントからログインできます。
- ダッシュボードに移動
- 以上でログインは完了です。
「import.io」クラウド版の基本的な使い方①データ自動取得
「import.io」の基本的なクラウド版の使い方を説明します。
使い方といってもURLをコピー&ペーストするだけなので、難しいことはありません。
データの収集
- データ収集したい対象サイトを開く
例)
ヤマダウェブコム
www.yamada-denkiweb.com
- ブラウザのアドレスバーからURLをコピーします。
Macショートカットキー:⌘+C
- import.ioにログイン後の画面から「New Extractor」をクリックします。
- URLをペースト(貼り付け)、「Go」をクリックします。
Macショートカットキー:⌘+V
- ページの情報を自動判別しリスト化されます。
以下のように商品画像、タイトル、価格など自動で判定し収集されました。
取得データの保存
- 画面右上の「Save」をクリックします。
- 保存名を入力し、「Save and run」をクリックします。
- 保存を待ちます。
- import.ioの管理画面に保存されます。
その都度収集しなおさなくても、ここからデータにアクセスできます。
- スクレイピングしたデータの確認
「プレビューデータ」ボタンをクリックすると、取得したデータをWEB上で閲覧できます。
スクレピングデータのエクスポート
取得したデータはCSVとしてエクスポートすることもできます。
エクスポートデータの形式は2通りです。
- JSON
- CSV
CSVのエクスポートを方法を解説します。
Mac版のエクセルの「文字化け」対応
エクスポートデータをMac版のエクセルで開くと「文字化け」します。
対応方法は以下の記事を参考にしてください。
「import.io」クラウド版の基本的な使い方②項目指定
「import.io」のクラウド版で項目指定でスクレピングする使い方を説明します。
この例では、ヨドバシカメラで「任天堂」で検索した結果から「商品名」「価格」を収集します。
データの収集
- データ収集したい対象サイトを開く
例)
http://www.yodobashi.com/?word=%E4%BB%BB%E5%A4%A9%E5%A0%82
- ブラウザのアドレスバーからURLをコピーします。
http://www.yodobashi.com/?word=%E4%BB%BB%E5%A4%A9%E5%A0%82 - import.ioにログイン後の画面から「New Extractor」をクリックします。
- URLをペースト(貼り付け)、「Go」をクリックします。
Macショートカットキー:⌘+V
- データ収集を待ちます
データ収集中は以下の画面が表示されます。
- ページの情報を自動判別しリスト化されます。
- 「Edit」タブの「Start over with empty」をクリックしデータをクリアします。
今回は取得項目を指定するため、一旦自動反映の「Start over with empty」でデータを消去します。
商品名の取得
- 項目名の決定
任意の項目を入力します。
例)name
- 取得項目の指定(商品名)
まずは商品名を選択します。
1つめの商品名と2つめの商品名をクリックします。
2個所選択すると、3つ目以降の商品名も自動取得されます。
※間違えて、違う項目を指定してしまった場合、Clear dateをクリックします。
- 取得データの確認
「Date」タブをクリックするとここまでの取得データを確認できます。
価格の取得
続いて、価格を取得します。
- 価格の取得
「Edit」タブの「Add colum」をクリックします。
- 項目に名前を付けます。
例) price
- 項目の選択
1つめの商品価格2つめの商品価格をクリックします。
2個所選択すると、3つ目以降の商品価格も自動取得されます。
- 「Date」タブをクリックすると取得データが確認できます。
データの保存
取得データの編集
保存した後でも再度データ編集することができます。
複数のURLから取得する方法
import.ioアプリケーション版
アプリケーション版ではWEB版に比べ、より高度なデータ抽出ができます。
例えば。WEB版ではimport.ioではデータ箇所を自動判定ですが、
アプリケーション版では項目のカスタマイズも可能です。
アプリケーション版の特徴
アプリケーション版には主に以下の特徴を持っています。
- アカウントの登録が必要(googleのアカウント、githubで可能)
- スクレイピングのルールをAPIとして登録できる
- APIを複数のウェブページに適応し、まとめて実行し、1つのCSVとしてDLできる
アプリケーション版のインストール
アプリケーション版のインストールは以下の手順で行います。
ダウンロード
https://www.import.io/standard-plans/
画面
import.ioWEBの検索例 アマゾンからキーワード検索で抽出する方法
- アマゾンでキーワード検索
検索 キーワード「japan import」での抽出例 - URLをコピー
URL:https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=japna+import - 「New Extractor」をクリックします。
- URLを貼り付け、「GO」をクリックします。
- 抽出を待ちます。
- 抽出結果が表示されます。
- Editタブでは抽出情報の編集ができます。
- 保存するにはSaveをクリックします。
- 名前をつけ保存します。
- メニューに追加されました。
まとめ
通常、WEBスクレピングには専門のプログラミング知識を必要とします。
しかい、URLのコピペで簡単に収集できるのがimport.ioの大きな特徴です。
物販に活用するなら、マーケティング、価格調査、在庫調査など様々な用途での使用が想定できますね。
ぜひ、データの分析に役立てましょう。
また、こうしたスクレイピングツールはimport.ioだけではありません。
他のスクレイピングツールについては、「悪用厳禁!プログラミング知識の不要のWEBスクレイピングツール 19選」で紹介しています。