悪用厳禁!プログラミング不要のWEBスクレイピングツール 比較19選

WEBサイトのHTMLから必要な情報を取得技術「Webスクレイピング」。大量のデータを手作業で集めるのは大変ですが、スクレイピング駆使すれば、効率的にデータ収集ができます。」

通常、スクレイピングを行うためにはプログラミングのコードを書かなければいけません。

今回は、プログラミング知識がなく、コードをかけなくてもWEBスクレイピングできるツールを紹介します。

GUI(視覚的)アプリケーションの操作でき、WEB上からデータを取得ができます。
WEBスクレイピングツールは海外系のツールがとても充実しています。

スクイピングは収集元のウェブサイトに負荷をかける場合があり、ウェブサイトによっては、利用規約により禁止しています。
当サイトは一切責任をおえませんので、くれぐれも自己責任にてスクレイピングを行ってください。

WEBスクレイピングとは?

WEBとはスクレイピングとは、ウェブサイトからデータを収集すること。ウェブサイトから手動で情報コピー&ペーストしてExcelにまとめるという作業も広い意味ではスクレイピングに含ます。

一般的には、ツールやプログラミングを駆使してデータ収集することを指します。

物販での用途・目的としては、通販サイトから商品情報データ取得、分析に役立てることができます。
大きな企業でもマーケティングのためにデータを集める目的でクローリング、スクレピングを行っています。

参考:クローリングとは?Webスクレイピングとは?(外部リンク)

なお、WEBスクレイピングで使われるプログラミング言語はPython(パイソン)が主流です。
Pythonには、スクレピング・クローリングに適した、ライブラリ(特定の機能をもった部品のようなもの)が充実しています。

参考:pythonでできることは?(外部リンク)

WEBスクレイピングツール 比較19選

国内外のWEBスクレイピングツールを19個紹介します。

import.io | URLコピペで簡単スクレイピング

import

import.io

import.io

  • 提供形態:クラウド版、アプリケーション版
  • 対応OS: Windows 、Max

import.ioはURLを貼り付けるだけでに簡単にスクレイピングができるツールです。

import.ioからダウンロードします。

import.ioの基本的な使い方は「URL入力で簡単! WEBスクレイピングツール import.ioの使い方」を読んでください。

Octoparse | Windows用スクレイピングツール

http://www.octoparse.com/

octoparse

 

  • 対応OS:Win7/Win8/Win10/Win XP
  • 提供形態:ダウンロード

Octoparseは、視覚的に操作可能なWebスクレイピングツールです。Octoparseは、クラウド上もしくは、ローカルマシン上で抽出を実行できます。スクレピングしたデータは、TXT、CSV、HTML、またはExcel形式でエクスポートすることができます。

Octoparseのの詳しい使い方は「無料! WEBスクレピングツール Octoparseのインストール方法と使い方」を確認してください。

Web Scraper | グーグルクローム拡張のスクレピングツール 

web-scraper
http://webscraper.io/

  • 対応OS:ブラウザの拡張として動作するため、windows、Macどちらでも可能
  • 提供形態:グーグルクローム拡張(無料)、クラウド版(有料)

Web Scraperはグーグルクロームブラウザのプラグイン(拡張)として提供されているスクレピングツール。

Web Scraperは「ページネーションの収集」にも対応しています。ページネーションとは、以下のように複数のページにまたがるページのことです。

ページネーション

ページネーション

Web Scraperの提供提供形態は2通りです。

  • Web Scraper Extension (Free!)(グーグルクローム拡張)
  • Cloud Web Scraper(クラウド版)

Web Scraper Extension (Free!)(グーグルクローム拡張)

グーグルクローム拡張の導入方法

  1. webscraperにアクセス
    http://webscraper.io/
  2. 「Download free on Chrome Store」をクリック

    Download free on Chrome Store

    Download free on Chrome Store

  3. クローム拡張追加

    クローム拡張追加

    クローム拡張追加

例えば、「Amazonのセールランキングページから大カテゴリ、中カテゴリ、小カテゴリを辿り、各カテゴリごとの1〜100位のASINをまとめて抽出」することも可能です。

※注意 Web Scraperでは収集対象のWEBサイトに負荷がかからないよう間隔を2秒以上あける仕様になっています。しかし、Amazonでのスクレピングは規約に抵触する可能性があります。自己責任で活用してください。

Cloud Web Scraper(クラウド版)

クラウド版の料金

  • 100,000 page credits – $50
  • 250,000 page credits – $90
  • 500,000 page credits – $125
  • 1,000,000 page credits – $175
  • 2,000,000 page credits – $250

参考:webスクレピングツール「web scraper」を使ってAmazonから一括ASIN取得する方法(保護中コンテンツ)

Scraper | グーグルクローム拡張のスクレピングツール

scraper

Scraperは一つのページから簡易的なスクレピングを行うのに向いたツールです。

  • 提供形態:グーグルクローム拡張
  • 対応OS:ブラウザの拡張として動作するため、windows、Macどちらでも可能

Dexi.io

Screenshot of dexi.io

Dexi.io

  • 価格:無料/月$119ドル/問い合わせ

Dexi.ioは、ダウンロードを必要としないWebベースのスクレイピングアプリケーションです。ブラウザベースのツールで、クローラを設定してリアルタイムでデータを取得できます。

Dexi.ioには、スクラップしたデータをBox.netやGoogleドライブに直接保存したり、JSONやCSVファイルとしてエクスポートする機能もあります。また、プロキシサーバーを使用して匿名でデータをスクレイピングすることもサポートしています。収集したデータは、アーカイブされる前に最大2週間、サーバー上でホストされます。

価格プラン

Webhose.io.

https://webhose.io/

Webhose.io.の使い方は「WEBスクレピングツール Webhose.io」を参照してください。

Scrapinghub

Screenshot of scrapinghub.com

https://scrapinghub.com/

VisualScraper

Screenshot of www.visualscraper.com

http://www.visualscraper.com/

価格

グーグルスプレッドシート | Google製無料表計算ソフト

Screenshot of www.google.com

https://www.google.com/intl/ja_jp/sheets/about

  • 価格:無料
  • 対応OS:Windows/Macどちらでも可能

グーグルスプレッドシートとはgoogleが提供しているWEB上で使える表計算ソフト。

「importxml」関数でWEBからデータを取得することができます。

=IMPORTXML(URL, Xpath)

80legs

Screenshot of 80legs.com

http://80legs.com/

価格:free/月$29/月$99/月$229/問い合わせ

80legsの価格プランは5通りです。
無料からでも利用できるスクレピングツールです。

無料プランでは同時複数のクロールを動かすことはできます。1回あたり、10,000 URLまで取得できます。

Outwit Hub | FireFoxアドオンのスクレピングツール

Screenshot of addons.mozilla.org

https://addons.mozilla.org/en-US/firefox/addon/outwit-hub/

  • 対応OS:ブラウザの拡張として動作するため、windows、Macどちらでも可能
  • 提供形態:FireFoxアドオン(拡張機能)

Fminer

Screenshot of www.fminer.com

http://www.fminer.com/

Fminerはウェブサイトからデータをできるだけ簡単かつ直感的に抽出できるスクレピングツールです。
単純なWebページからデータをスクレピングはもちろんのこと、
プロキシサーバーのリスト、Ajax処理、および多層クロールを必要とする複雑なプロジェクトを実行にも対応できます。

parsehub

Screenshot of www.parsehub.com

https://www.parsehub.com/

  • 価格 無料/月$149/月$499/問い合わせ
  • 対応OS:windows、Mac、Linax

Parsehubは、AJAX、JavaScript、リダイレクト、およびCookieを使用するサイトからの複雑なデータ抽出をサポートするWebスクレイピングソフトウェア。

Web上の文書を読み込んで解析し、関連するデータを出力できる機械学習技術を搭載。

ブラウザ内で使用できるWebアプリケーションあり。また、Windows、Mac、Linuxのデスクトップクライアントとして利用できます。

parsehubの価格プラン

  • Everyone
  • Standard
  • Professional
  • Enterprise

 

Web Robots

Screenshot of webrobots.io

https://webrobots.io/

クローム拡張

Grepsr

https://www.grepsr.com/

Instant Data Scraper |クローム拡張スクレイピングツール

提供形態:クローム拡張

Friendly Scraper

https://fscraper.com/

uScraper

Screenshot of uscraper.com

https://uscraper.com/#howitsworks

kimono※サービス閉鎖

kimono

https://www.kimonolabs.com/

  • 提供形態 デスクトップアプリケーション
  • 対応OS Mac、Windows

ダウンロードページ

Kimonoは2016年2月29日に閉鎖サービス閉鎖しました。

quickcode.io

Screenshot of scraperwiki.com

QuickCode

quickcode.io(旧:ScraperWiki)は、スクレピングのコード(Ruby, PHP, Python)を共有するサイトを提供しています。

  • ScraperWikiサイト上から直接コードを編集や実行できる
  • 定期的にスクレイプを実行することができる。
  • スクレイピングで取得してデータはScraperWiki上に保存される
  • APIを通して、データを再利用することが可能

websundew

Screenshot of www.websundew.com

Web Scraping, Web Extraction, WebSundew

Webスクレイピングの注意

クレイピングの注意点や法律については「qiita」でわかりやすくまとめられた記事あります。
※外部サイトです。

スクレイピングの本


PythonによるWebスクレイピング
価格 ¥3,240円(記事執筆時点)
Amazonで購入

プログラミング言語「Python(パイソン)」によるWebスクレイピングの方法を解説した本です。

まとめ

紹介しているスクレイピングはすべて海外製のサービスです。

こうした、インターフェイスがシンプルで使いやすいものは海外製であることが多いです。

ツールやサービスを探すとき、検索対象を海外にも広げてみましょう。

インターネット上で最も多く使わている占めている言語は英語です。日本語は僅かに過ぎません。

広大なネット空間で日本語の情報のみにアクセスすることは、限られた情報しか得られないことを意味します。

サービスの提供側すると、英語ベースでサービス提供する方が見込み利用者数の天井値が高くなります。

見込み利用者数が多いということは、一人の利用数の当たりの単価は引き下げることができます。

日本語ローカルライズが必須がとなるサービスは別として、WEBスクレピングなど、汎用性が高く、世界中で需要のあるサービスであれば、英語ベースのサービスの方が安く提供できるのはこの為です。