はじめに
- 解説
- 1. このコースで学ぶ内容
- 2. スクレイピングについてと注意点
- 3. 学習環境
- 4. 学習に必要な前提コース
解説
1. このコースで学ぶ内容
このカリキュラムでは、Pythonを使ってスクレイピングについて学んでいきます。
作成物としては、気象庁の地震情報を取得し最終的にはグーグルスプレッドシートに書き込む機能を実装していきます。
実装はPythonを用いて行いますが、HTMLの構造について理解しておくことが必要です。
HTMLでは、bodyタグやheadタグなど様々なタグを用いて階層構造を取ります。
タグやid、classなどを指定してスクレイピングを行うためHTMLの知識が必要です。
HTMLについて学習したい方は『HTML & CSS』コースを学習しましょう!
2. スクレイピングについてと注意点
スクレイピングは、Webサイトから自動的にテキスト情報を抽出する技術です。
常に応用の範囲が広い技術で、様々な場面で用いられています。
しかしスクレイピングは、非常に便利な技術だけに悪用される可能性もあります。
そのためWebサイトによってはスクレイピングを禁止している場合があります。
スクレイピングをするときは禁止されていないか必ず確認して行うようにしましょう!
スクレイピングを頻繁に行うとサーバーに負荷をかけることになります。
そのため頻繁にリクエストを送らないような工夫を心がけましょう。
3. 学習環境
学習には Google Colaboratory(以降Colab) を用います。
Colab はGoogleが提供してるブラウザからPythonを実行できるクラウド環境で、機械学習の実験から本格的なデータ分析まで手軽に実行できます。
下記URLより事前に用意したノートをコピーして下さい。
コピーの仕方などは次のページにて解説します。
カリキュラムを進める上で実行するコマンドが事前に準備されているので、カリキュラムに沿って実行して下さい。
https://colab.research.google.com/drive/1oRMRmOGsVQ-tJTeTu2VLDRSgkVsypbYy
※本カリキュラムはGoogleアカウントを取得済を前提としております。
4. 学習に必要な前提コース
このコースは、下表の各コース・手順を完了している前提で学習を進めていきます。
前提コース