Amazonの商品ページをスクレイピングしたかったので調べてみました。
クローリング
クローリングとは
インターネット上の膨大なコンテンツを、HTMLのリンクをたどって巡回し、機械的に情報収集することを、クローリング又はクロールと言います。
クローリングの制限
robots.txt
を見れば、サイトのクローリングの可否が分かります。
robots.txt
は必ずドキュメントルートに配置してあるので、https://www.amazon.co.jp/robots.txt を見てみます。
User-agent: * はすべてのクローラーが対象となる、といいう意味
Disallow :対象のクローラーにアクセスして欲しくないパス
Allow :対象のクローラーがアクセスして良いパス
ほとんどDisallowですが、一部Allowもあります。
スクレイピング
スクレイピングとは
ウェブスクレイピングとは、ウェブサイトにある情報を抽出するコンピュータソフトウェアの技術のこと
内閣府 「ウェブスクレイピングを用いた価格指数の推計に関する調査研究報告書
Amazon利用規約
Amazon.co.jp利用規約 によると、 とあり、この規約により、Amazonはスクレイピング禁止だと言われています。
総務省と法律事務所の見解
総務省 消費者物価指数 (CPI) へ のウェブスクレイピングの活用について より
ということは、
- 利用者の制限のない、だれでもアクセスできるページの
- 著作物でない情報を
- 手動と同じ程度のアクセス速度
で取得すれば、スクレイピングしても問題なさそうです。