WEBサイトのHTMLから必要な情報を取得技術「Webスクレイピング」。大量のデータを手作業で集めるのは大変ですが、スクレイピング駆使すれば、効率的にデータ収集ができます。」
通常、スクレイピングを行うためにはプログラミングのコードを書かなければいけません。
今回は、プログラミング知識がなく、コードをかけなくてもWEBスクレイピングできるツールを紹介します。
GUI(視覚的)アプリケーションの操作でき、WEB上からデータを取得ができます。
WEBスクレイピングツールは海外系のツールがとても充実しています。
当サイトは一切責任をおえませんので、くれぐれも自己責任にてスクレイピングを行ってください。
目次
- 1 WEBスクレイピングとは?
- 2 WEBスクレイピングツール 比較19選
- 3 import.io | URLコピペで簡単スクレイピング
- 4 Octoparse | Windows用スクレイピングツール
- 5 Web Scraper | グーグルクローム拡張のスクレピングツール
- 6 Scraper | グーグルクローム拡張のスクレピングツール
- 7 Dexi.io
- 8 グーグルスプレッドシート | Google製無料表計算ソフト
- 9 Outwit Hub | FireFoxアドオンのスクレピングツール
- 10 Fminer
- 11 parsehub
- 12 Grepsr
- 13 Instant Data Scraper |クローム拡張スクレイピングツール
- 14 Friendly Scraper
- 15 uScraper
- 16 kimono※サービス閉鎖
- 17 quickcode.io
- 18 websundew
- 19 Webスクレイピングの注意
- 20 スクレイピングの本
- 21 まとめ
WEBスクレイピングとは?
WEBとはスクレイピングとは、ウェブサイトからデータを収集すること。ウェブサイトから手動で情報コピー&ペーストしてExcelにまとめるという作業も広い意味ではスクレイピングに含ます。
一般的には、ツールやプログラミングを駆使してデータ収集することを指します。
物販での用途・目的としては、通販サイトから商品情報データ取得、分析に役立てることができます。
大きな企業でもマーケティングのためにデータを集める目的でクローリング、スクレピングを行っています。
参考:クローリングとは?Webスクレイピングとは?(外部リンク)
なお、WEBスクレイピングで使われるプログラミング言語はPython(パイソン)が主流です。
Pythonには、スクレピング・クローリングに適した、ライブラリ(特定の機能をもった部品のようなもの)が充実しています。
参考:pythonでできることは?(外部リンク)
WEBスクレイピングツール 比較19選
国内外のWEBスクレイピングツールを19個紹介します。
import.io | URLコピペで簡単スクレイピング
- 提供形態:クラウド版、アプリケーション版
- 対応OS: Windows 、Max
import.ioはURLを貼り付けるだけでに簡単にスクレイピングができるツールです。
import.ioからダウンロードします。
import.ioの基本的な使い方は「URL入力で簡単! WEBスクレイピングツール import.ioの使い方」を読んでください。
Octoparse | Windows用スクレイピングツール
- 対応OS:Win7/Win8/Win10/Win XP
- 提供形態:ダウンロード
Octoparseは、視覚的に操作可能なWebスクレイピングツールです。Octoparseは、クラウド上もしくは、ローカルマシン上で抽出を実行できます。スクレピングしたデータは、TXT、CSV、HTML、またはExcel形式でエクスポートすることができます。
Octoparseのの詳しい使い方は「無料! WEBスクレピングツール Octoparseのインストール方法と使い方」を確認してください。
Web Scraper | グーグルクローム拡張のスクレピングツール
- 対応OS:ブラウザの拡張として動作するため、windows、Macどちらでも可能
- 提供形態:グーグルクローム拡張(無料)、クラウド版(有料)
Web Scraperはグーグルクロームブラウザのプラグイン(拡張)として提供されているスクレピングツール。
Web Scraperは「ページネーションの収集」にも対応しています。ページネーションとは、以下のように複数のページにまたがるページのことです。
Web Scraperの提供提供形態は2通りです。
- Web Scraper Extension (Free!)(グーグルクローム拡張)
- Cloud Web Scraper(クラウド版)
Web Scraper Extension (Free!)(グーグルクローム拡張)
グーグルクローム拡張の導入方法
- webscraperにアクセス
http://webscraper.io/ - 「Download free on Chrome Store」をクリック
- クローム拡張追加
例えば、「Amazonのセールランキングページから大カテゴリ、中カテゴリ、小カテゴリを辿り、各カテゴリごとの1〜100位のASINをまとめて抽出」することも可能です。
Cloud Web Scraper(クラウド版)
クラウド版の料金
- 100,000 page credits – $50
- 250,000 page credits – $90
- 500,000 page credits – $125
- 1,000,000 page credits – $175
- 2,000,000 page credits – $250
参考:webスクレピングツール「web scraper」を使ってAmazonから一括ASIN取得する方法(保護中コンテンツ)
Scraper | グーグルクローム拡張のスクレピングツール
Scraperは一つのページから簡易的なスクレピングを行うのに向いたツールです。
- 提供形態:グーグルクローム拡張
- 対応OS:ブラウザの拡張として動作するため、windows、Macどちらでも可能
Dexi.io
- 価格:無料/月$119ドル/問い合わせ
Dexi.ioは、ダウンロードを必要としないWebベースのスクレイピングアプリケーションです。ブラウザベースのツールで、クローラを設定してリアルタイムでデータを取得できます。
Dexi.ioには、スクラップしたデータをBox.netやGoogleドライブに直接保存したり、JSONやCSVファイルとしてエクスポートする機能もあります。また、プロキシサーバーを使用して匿名でデータをスクレイピングすることもサポートしています。収集したデータは、アーカイブされる前に最大2週間、サーバー上でホストされます。
価格プラン
Webhose.io.
Webhose.io.の使い方は「WEBスクレピングツール Webhose.io」を参照してください。
Scrapinghub
VisualScraper
グーグルスプレッドシート | Google製無料表計算ソフト
https://www.google.com/intl/ja_jp/sheets/about
- 価格:無料
- 対応OS:Windows/Macどちらでも可能
グーグルスプレッドシートとはgoogleが提供しているWEB上で使える表計算ソフト。
「importxml」関数でWEBからデータを取得することができます。
=IMPORTXML(URL, Xpath) |
80legs
価格:free/月$29/月$99/月$229/問い合わせ
80legsの価格プランは5通りです。
無料からでも利用できるスクレピングツールです。
無料プランでは同時複数のクロールを動かすことはできます。1回あたり、10,000 URLまで取得できます。
Outwit Hub | FireFoxアドオンのスクレピングツール
https://addons.mozilla.org/en-US/firefox/addon/outwit-hub/
- 対応OS:ブラウザの拡張として動作するため、windows、Macどちらでも可能
- 提供形態:FireFoxアドオン(拡張機能)
Fminer
Fminerはウェブサイトからデータをできるだけ簡単かつ直感的に抽出できるスクレピングツールです。
単純なWebページからデータをスクレピングはもちろんのこと、
プロキシサーバーのリスト、Ajax処理、および多層クロールを必要とする複雑なプロジェクトを実行にも対応できます。
parsehub
- 価格 無料/月$149/月$499/問い合わせ
- 対応OS:windows、Mac、Linax
Parsehubは、AJAX、JavaScript、リダイレクト、およびCookieを使用するサイトからの複雑なデータ抽出をサポートするWebスクレイピングソフトウェア。
Web上の文書を読み込んで解析し、関連するデータを出力できる機械学習技術を搭載。
ブラウザ内で使用できるWebアプリケーションあり。また、Windows、Mac、Linuxのデスクトップクライアントとして利用できます。
parsehubの価格プラン
- Everyone
- Standard
- Professional
- Enterprise
Web Robots
Grepsr
Instant Data Scraper |クローム拡張スクレイピングツール
提供形態:クローム拡張
Friendly Scraper
uScraper
https://uscraper.com/#howitsworks
kimono※サービス閉鎖
- 提供形態 デスクトップアプリケーション
- 対応OS Mac、Windows
Kimonoは2016年2月29日に閉鎖サービス閉鎖しました。
quickcode.io
quickcode.io(旧:ScraperWiki)は、スクレピングのコード(Ruby, PHP, Python)を共有するサイトを提供しています。
- ScraperWikiサイト上から直接コードを編集や実行できる
- 定期的にスクレイプを実行することができる。
- スクレイピングで取得してデータはScraperWiki上に保存される
- APIを通して、データを再利用することが可能
websundew
Web Scraping, Web Extraction, WebSundew
Webスクレイピングの注意
クレイピングの注意点や法律については「qiita」でわかりやすくまとめられた記事あります。
※外部サイトです。
スクレイピングの本
PythonによるWebスクレイピング
価格 ¥3,240円(記事執筆時点)
Amazonで購入
プログラミング言語「Python(パイソン)」によるWebスクレイピングの方法を解説した本です。
まとめ
紹介しているスクレイピングはすべて海外製のサービスです。
こうした、インターフェイスがシンプルで使いやすいものは海外製であることが多いです。
ツールやサービスを探すとき、検索対象を海外にも広げてみましょう。
インターネット上で最も多く使わている占めている言語は英語です。日本語は僅かに過ぎません。
広大なネット空間で日本語の情報のみにアクセスすることは、限られた情報しか得られないことを意味します。
サービスの提供側すると、英語ベースでサービス提供する方が見込み利用者数の天井値が高くなります。
見込み利用者数が多いということは、一人の利用数の当たりの単価は引き下げることができます。
日本語ローカルライズが必須がとなるサービスは別として、WEBスクレピングなど、汎用性が高く、世界中で需要のあるサービスであれば、英語ベースのサービスの方が安く提供できるのはこの為です。