Amazon.co.jpを題材に、クローリングとスクレイピングの利用規約と法律を確認する

Amazonの商品ページをスクレイピングしたかったので調べてみました。

クローリング

クローリングとは

インターネット上の膨大なコンテンツを、HTMLのリンクをたどって巡回し、機械的に情報収集することを、クローリング又はクロールと言います。

クローリングの制限

robots.txtを見れば、サイトのクローリングの可否が分かります。 robots.txtは必ずドキュメントルートに配置してあるので、https://www.amazon.co.jp/robots.txt を見てみます。


User-agent: * はすべてのクローラーが対象となる、といいう意味
Disallow :対象のクローラーにアクセスして欲しくないパス
Allow :対象のクローラーがアクセスして良いパス

ほとんどDisallowですが、一部Allowもあります。

スクレイピング

スクレイピングとは

ウェブスクレイピングとは、ウェブサイトにある情報を抽出するコンピュータソフトウェアの技術のこと
内閣府 「ウェブスクレイピングを用いた価格指数の推計に関する調査研究報告書

Amazon利用規約

Amazon.co.jp利用規約 によると、 とあり、この規約により、Amazonスクレイピング禁止だと言われています。

総務省と法律事務所の見解

総務省 消費者物価指数 (CPI) へ のウェブスクレイピングの活用について より

ということは、

  • 利用者の制限のない、だれでもアクセスできるページの
  • 著作物でない情報を
  • 手動と同じ程度のアクセス速度

で取得すれば、スクレイピングしても問題なさそうです。

参考にした書籍とサイト