あなたのワークシートがインターネットにつながるExcel VBAクローリング&スクレイピング
五十嵐貴之
お手元のExcelでもクローリング&スクレイピングが可能になる!
- 定価
- 3,080円(本体価格 2,800円)
- 発売日
- 2018年11月15日
- 判型/ページ数
- B5変型/416ページ
- ISBN
- 978-4-8026-1159-6
ネットのデータを見ながらワークシートにデータ入力…こんな作業から解放されたい!
ネットで集めたデータがたくさんあるけど、これをうまく整形してワークシートに落とし込みたい!
Excel VBAからクローリングができる!
Excel VBAでスクレイピングができる!
あなたのワークシートがインターネットにつながれば、作業の可能性が拡がります。
第1章 クローリングとスクレイピングに必要な基礎知識
1-1 本書を読み進める上での事前知識
VBAの経験
基本的なHTMLのタグの理解
1-2 そもそもクローリング/スクレイピングとは何か
インターネットを通じて繋がる世界
クローリングとスクレイピングについて
1-3 クローリングを行う際の注意事項
データの無断利用等による著作権法違反
リソース圧迫による業務妨害
1-4 行儀よくクローリングを行うには
利用規約に従う
robots.txtに従う
robots metaタグに従う
第2章 Excel VBAでInternet Explorerを制御する
2-1 COMの参照設定
Internet ExplorerのCOMを参照設定するには
2-2 URLのしくみ
URLはインターネット上のファイルの位置
絶対パスと相対パス
2-3 Webページを開く
指定したWebページを開く
サンプルプログラムとその解説
2-4 Webページからテキストを取得
Webページの文字列を収集する
サンプルプログラムとその解説
2-5 WebページからHTMLを取得
Webページを操作するもっとも基本的なこと
サンプルプログラムとその解説
2-6 COMの参照設定なしでInternet Explorerを制御
COM参照を動的に行う
サンプルプログラムとその解説
2-7 起動中のInternet Explorerを制御する
すでに開いているWebページをExcel VBAでキャッチする
サンプルプログラムとその解説
2-8 Webページを閉じるまで処理を待機する
ブラウザーが終了するまで監視する
サンプルプログラムとその解説
2-9 ファイルをダウンロードする
写真や動画を収集するために
サンプルプログラムとその解説
第3章 Excel VBAでHTMLタグを制御する
3-1 Excel VBAでHTMLを制御するには
HTMLとは
HTMLタグを解析するための技術
サンプルプログラムの検証で使用するWebページについて
3-2 テキストボックス操作
テキストボックスの用途
サンプルプログラムとその解説
3-3 パスワード入力欄操作
パスワード入力欄について
サンプルプログラムとその解説
3-4 チェックボックス操作
チェックボックスの用途
サンプルプログラムとその解説
3-5 ラジオボタン操作
ラジオボタンの用途
サンプルプログラムとその解説
3-6 セレクトボックス操作
セレクトボックスの用途
サンプルプログラムとその解説
3-7 テキストエリア操作
テキストエリアの用途
サンプルプログラムとその解説
3-8 ハイパーリンク操作
ハイパーリンクの概要
サンプルプログラムとその解説
3-9 ボタン操作
ボタン・コントロールについて
サンプルプログラムとその解説
3-10 Submitボタン操作
Submitボタンについて
サンプルプログラムとその解説
3-11 テーブル操作
テーブルタグについて
サンプルプログラムとその解説
第4章 さまざまなファイルを解析する
4-1 Webページのファイル形式(HTML/XML/CSV/JSON/PDF/DOCX)
HTML
XML
CSV
JSON
PDF
DOCX
4-2 XMLファイルを解析する
サンプルプログラムとその解説
4-3 CSVファイルを解析する
サンプルプログラムとその解説
4-4 JSONファイルを解析する
サンプルプログラムとその解説
4-5 PDFファイルを解析する
サンプルプログラムとその解説
4-6 WORDファイルを解析する
サンプルプログラムとその解説
4-7 改行文字の違い
改行コードの種類
4-8 Unicodeのテキストファイルを読み込むには
文字コードとエンコーディング
サロゲートペア文字について
第5章 クローリング/スクレイピングの運用について
5-1 指指定したURLが存在するかをチェックする
404「not found」エラーをクローリングしないようにする
サンプルプログラムとその解説
5-2 同じURLを何度もクローリングしないようにするために
クローリングで永久ループ?
5-3 クローリングを同時進行するには
マルチスレッドとは
Excel VBAで並行処理を実装するには
5-4 データベースを利用する
SQL Serverに接続
Microsoft Accessに接続
ODBC経由でデータベースに接続する
5-5 定期的にクローリング/スクレイピングするには
タスクスケジューラ
5-6 クローラーが強制終了した場合の対処
考えられるエラーの原因
エラーが発生した場合の対処
第6章 プログラムが文章を理解するために
6-1 形態素解析を利用して文章を品詞に分割する
あ形態素解析とは
MeCabを用いた形態素解析
Yahoo! APIを用いた形態素解析
Microsoft Wordで代替する場合
6-2 マルコフ連鎖を利用して文章を要約する
マルコフ連鎖とは
サンプルプログラムとその解説
6-3 ベイズ推定を利用して文章を分類する
ベイズ推定とは
サンプルプログラムとその解説
第7章 robots.txtを考慮したクローリングサンプル
7-1 Webサイトを根こそぎ取得する
サンプルプログラムについて
7-2 共通モジュールの作成
共通モジュールのメンバ紹介
7-3 専用モジュールの作成
サンプルコードの紹介
7-4 サンプルプログラムをさらに拡張させるには
拡張すべき機能とソースコードの箇所
Appendix
最強のクローリングツールの紹介
ダウンロードデータ
本書で解説したサンプルデータをダウンロードできます。
なお、使用方法などに関しては、必ず書籍の該当箇所をご確認の上、ご利用ください。
ダウンロード後、解凍したファイル内に「readme.txt」ファイルなどが含まれる場合は、使用前にこちらもご確認ください。
お問い合わせ
本書に関するお問い合わせは、下記のボタンをクリックしてお問い合わせフォームよりお問い合わせください。