これで使える実践Webスクレイピング Pythonで学ぶWeb情報収集

著者名
金 徳謙
価格
定価 2,970円(税率10%時の消費税相当額を含む)
ISBN
978-4-7985-0378-3
仕様
B5判 並製 190頁 C1004
発行年
2024年5月
ご注文
  • 紀伊國屋
  • amazon
  • 楽天ブックス
  • セブンネットショッピング

内容紹介

インターネットの普及と定着は、膨大な量の情報の流通をもたらしました。さまざまな分野で膨大な情報が活かされ、私たちの生活はとても便利になり、インターネットは現代生活に欠かせない存在となりました。しかし他方で、流通する情報があまりに膨大なため、その中から必要な情報を手作業で収集することはほぼ不可能となりました。なんとか情報を収集できたとしても、情報量がとても多く、データ分析によって全容を把握することも難しくなっています。

このような膨大な量のデータの取り扱いは、大まかに収集と分析に分けられます。本書ではこのうち、前者のデータの収集を取りあげています。具体的には、インターネット上に流通する膨大な量のデータを効率よく収集する、Webスクレイピングという手法を、とくに文系の初学者や、Webスクレイピングの学習にチャレンジしたものの習得には至らなかった読者を対象に、分かりやすく図説していきます。本書では、直感的に理解しやすく、すぐに学習結果が応用できるよう、Pythonによるデータ収集を、実在するサイトを事例に解説しています。

今後さらにインターネットの重要性が高まると予想されるなか、膨大な量のデータの収集方法を習得することは、みなさんにとって大きな力になるでしょう。ぜひ、Webスクレイピングの習得にチャレンジしてみてください。本書はみなさんの学習をサポートする、実践的解説書です。

目次

まえがき
 
   第1部 Webスクレイピングのために
 
Ⅰ データサイエンスとは
 
1 コンピュータとのコミュニケーション
2 データサイエンスを学ぶ理由
3 Webスクレイピングを学ぶ
 
Ⅱ Anaconda
 
1 Anacondaのインストール
2 Jupyter Notebookの起動
 (1) Anacondaの起動
 (2) Jupyter Notebookの起動
3 Jupyter Notebookの操作方法
4 コードの表示
 
Ⅲ Pythonの基本
 
1 特徴
2 データの形式
 (1) リスト(List)形式
 (2) シリーズ(Series)形式
 (3) データフレーム(Data Frame)形式
3 よく使う演算子と書き方
 (1) 代入演算子
 (2) 算術演算子
 (3) 比較演算子
4 ライブラリのインストールと読み込み
5 条件文と繰り返し文
 (1) if文
 (2) for文
 (3) while文
 
Ⅳ Webスクレイピングに向けた準備
 
1 Seleniumの導入
2 Chrome driverの追加
3 Chrome driver managerの便利な使い方
4 正規表現の基本
 (1) 数字の抽出
 (2) 文字の抽出
 (3) urlの抽出
 
   第2部 実務データの収集
 
Ⅴ 離島経済新聞社の日本の有人離島情報
 
1 html文の確認
2 html文とタグ
3 タグ内情報の収集
 (1) ライブラリのインストール
 (2) 必要ライブラリのインポート
 (3) スクレイピングするurlを変数に代入
 (4) url内の情報をサーバーにrequest
 (5) html文の解析
 (6) html文のタグ情報からデータ収集
   1) タグの構造とタグ属性  2) 1つのタグから情報収集
   3) 複数タグから情報取得(urlリストの作成)
   4) 島ごとの情報の収集(分割・データ列の操作)
 
Ⅵ Amazon商品検索情報の収集
 
1 urlの取得
2 商品情報の収集
 (1) html文の解析
 (2) product情報の収集
   1) 商品名の取得  2) 評価情報の収集  3) レビュー数の収集
   4) 商品の価格情報の収集  5) product情報の関数化
 (3) 次ページの確認とurl取得
3 繰り返しとmain変数の適用
 (1) 関数化コード文の構造
 (2) while文による繰り返し
 (3) main関数化
 
Ⅶ Amazon商品レビューの収集
 
1 urlの取得
 (1) html文の構造把握
   1) レビュー文の表示  2) レビュー文のurlの確認
 (2) html文全体の解析
2 レビューデータの収集
 (1) コードの解析とデータの収集
 (2) データ型の変換:文字列型から日付型へ
 (3) 収集データの保管
 (4) コードの関数化
3 繰り返し文の検討と作成
 (1) 次ページの確認とurlの取得
 (2) 繰り返し文の作成
4 main関数化
 (1) ASINとは
 (2) User Agent
   1) requestsの動作確認  2) User Agentの確認
 (3) main関数文
 
Ⅷ Tripadvisorの観光地レビューの収集
 
1 urlの取得
 (1) html文の構造把握
 (2) html文の解析
2 レビューデータの収集
 (1) コードの解析とデータの収集
   1) 投稿者名の抽出  2) 居住地の抽出(正規表現の応用)
   3) レビュータイトルの抽出  4) レビュー文の抽出
 (2) データ型の変換:文字列型から実数型へ
   1) 評価点の抽出
 (3) データ型の変換:文字列型から日付型へ
   1) 訪問日の抽出
 (4) コードの関数化
3 繰り返し文とmain関数化
4 繰り返し文の変更(for文からwhile文へ)
 (1) 次ページの有無確認とurlの取得
 (2) main関数の作成
5 英文レビューの収集
 (1) 評価点の取得コード修正
 (2) 訪問日の取得コード修正
 (3) 英文レビュー用のparse関数コード
 
Ⅸ 楽天トラベルの宿泊施設情報の収集
 
1 API
 (1) APIとは
 (2) 楽天アプリIDの取得(発行)
2 json形式のデータの取り扱い
 (1) json形式とは
 (2) json形式の書き方
3 楽天トラベル地区コードの収集
 (1) 楽天トラベル地区コードAPI
 (2) 地区コードの取得
   1) largeClass  2) middleClass  3) smallClass
   4) detailClass
 (3) Classごとのデータの取得
   1) middleClassの取得  2) smallClassの取得
   3) detailClassの取得
 (4) すべてのClassCodeの取得
   1) middleClassデータ取得のためのfor文
   2) smallClassデータ取得のためのfor文
   3) detailClassデータ取得のためのfor文
 (5) コードの関数化
4 楽天トラベル宿泊施設情報の収集
 (1) 地区コード
 (2) フィルタリング(都道府県の指定)関数
 (3) 情報の掲載ページ数の取得
 (4) すべての宿泊施設情報の取得
 (5) 必要な宿泊施設情報の取得
 (6) save関数の作成
 (7) main関数の作成
 
Ⅹ タウンページからの検索情報の収集
 
1 検索とリターンデータのurl取得
2 jsonデータから必要なデータの取得
 (1) jsonデータのリターンurlの検査
 (2) 検索用urlの作成
 (3) 検索件数と表示ページの確認
 (4) 検索された各ページのurlリスト作成
 (5) jsonデータから必要項目の取得
 (6) すべての検索結果の取得
 (7) 取得データの保存
3 関数化とmain関数の作成
 (1) 関数化
   1) ページごとのurl作成  2) ページ内の必要項目の取得
   3) 取得データの保存
 (2) main関数の作成
 
索 引

著者紹介

金 徳謙(キム トクケン)
 
広島修道大学商学部教授。
1986年、韓国京畿大学校経商大学観光開発学科卒業後、来日。
     日本及び外国の旅行会社勤務(2003年まで)。
2000年、立教大学大学院観光学研究科博士前期課程終了。
2003年、立教大学大学院観光学研究科博士後期課程単位取得満期退学。
     立教大学観光学部助手。
2005年、財団法人日本交通公社客員研究員。
2006年より、香川大学経済学部講師、准教授を経て教授。
2018年より現職。
 
主な著書
『実践利用にステップアップを目指す QGIS応用編』ナカニシヤ出版、2022
『これで使えるQGIS入門』ナカニシヤ出版、2020
『図説 日本の島』共著、朝倉書店、2018
『観光地域調査法』美巧社、2016
『瀬戸内海観光と国際芸術祭』共著、美巧社、2012
『瀬戸内圏の地域文化の発見と観光資源の創造』共著、美巧社、2010
『観光学へのアプローチ』共著、美巧社、2009
『新しい観光の可能性』共著、美巧社、2008

学術図書刊行助成

お勧めBOOKS

若者言葉の研究

若者言葉の研究

生きている言語は常に変化し続けています。現代日本語も「生きている言語」であり、「…

詳細へ

犯罪の証明なき有罪判決

犯罪の証明なき有罪判決

冤罪はなぜ起こるのか。刑事訴訟法は明文で、「犯罪の証明があった」ときにのみ、有罪…

詳細へ

賦霊の自然哲学

賦霊の自然哲学

物理学者フェヒナー、進化生物学者ヘッケル、そして発生生物学者ドリーシュ。本書はこ…

詳細へ

帝国陸海軍の戦後史

帝国陸海軍の戦後史

近代日本のなかで主要な政治勢力の一翼を担った帝国陸海軍は、太平洋戦争の敗戦ととも…

詳細へ

構造振動学の基礎

構造振動学の基礎

本書の目的は,建物・橋梁・車両・船舶・航空機・ロケットなど軽量構造物の振動現象を…

詳細へ

九州大学出版会

〒819-0385
福岡県福岡市西区元岡744
九州大学パブリック4号館302号室
電話:092-836-8256
FAX:092-836-8236
E-mail : info@kup.or.jp

このページの上部へ