『スクレイピング(最終回)』 インスクエア ビジネスニュース Vol.1341
■[ インスクエア ビジネスニュース ]━■
エイジレスな起業支援
インスクエアが送る【最新!ビジネス情報】
http://in-sq.com
■━━━━━━[vol.1341] 2017/07/28━━■
メルマガ無料購読申込はこちら
━━┳━━━━━━━━━━━━━━━━━━━━━━
01 ┃ 本日のコラム -『スクレイピング(最終回)』
━━┃…………………………………………………………
┃ / 藤田幹夫(PDBマーケティング株式会社)
━━━━━━━━━━━━━━━━━━━━━━━━━
PDBマーケティング藤田です。
「スクレイピング」=インターネット情報収集へのチャレンジ
今日は最終回となります。
昨日(7月27日)データ編集までの仕組みが確立しました。
今日、10万件のデータ完成予定です。
インターネット上のサイトにある膨大な情報から欲しい
情報を抽出する。
新しいサービスを生み出すための基本技術です。
1つの現実的なソリューション=解決策の確立です。
こうした技術課題は、解決策は1つではなく環境の変化で
最適解も異なってきます。
自分なりの実現策を持っていいることが、アイデア
実現を助けてくれます。
今回のプロジェクトは当初、既存データをもとに
画像データの補完収集でした。
この課題では、技術的にはExcelのVBAのアプリと
なります。
懸念すべきことは、10万回のアクセスに対して
サーバ側が、拒否ロジックを持っているかもしれない
ことです。
プログラムの自動アクセスによる情報の取得には
サーバ管理側も注意を払っています。
同じPC/IPアドレスから連続的なアクセスは検知
され、接続拒否の可能性があります。
今回、要件が変更となり、既存データを基に
した収集ではなく、新規集収となりました。
このため、新たな技術としてスクレイピングに
チャレンジすることとなりました。
新しい技術は習得に一定の時間、労力投入が必須です。
結果として1か月の期間を要しました。
しかし、専門特化しているサービスを採用したので、
サーバ側の拒否対策には対策が取られており、
アクセス拒否は気にしなくてよくなっています。
サービス提供側説明では、5万台のサーバで
分散処理するそうです。
10万件の収集でも、1台からは2回のアクセスとなります。
こうした新しいサービスは、日本語の対応が十分で
なく、解説など英語での読み下しが必要ですが、
Google翻訳のレベルも向上し気持ちがあれば、
障害にはなりません。
収集要件を個別にアプリケーションとして定義する
ためのプログラミングは慣れるまで、試行錯誤です。
1万件の収集は、回数制限なく無料サービス範囲です。
以下がサービスのURLです。関心がある方はどうぞ。
このサービスによる情報収集だけでは完結しません。
データの編集機能は決して十分でなく、巨大なJSON
(インターネットの標準的なフォーマット)が
出力されます。最初は120MBありました。
絞り込んで8MB程度になりました。
このファイルを自分用に編集することとなります。
NONSQLデータベース、PosgreSQLのJsonサポート
など検討したのですが現時点自分で扱えそうになく、
次の課題として先送り、EXcelVBAでの加工としました。
得られたJsonファイルをセルに格納し、文字列検索
で不要データの削除、アイテムへの設定を行います。
日本語を扱いますから、漢字コード変換も必須です。
ネットの標準はUTF8,ExcelはシフトJISです。
データ利用時点で、元になるHPを参照したいことから
、URLにはハイパーリンク設定も有効です。
こうした処理を組み込んで、一連の仕組みが確立しました。
新しい世界を歩くことができるという、充実した
感覚があります。
これは、技術ですからビジネスのツールとして
活用するにはさらなる創意工夫です。
7月のスクレイピング実践経過でした。
次回は8月になります。
並行して企画してきた、大学での活動計画を
次回メルマガで紹介します。
暑さに負けず、無理せず進めていきます。
—————————————————————-
▼プロフィール:インスクエアメルマガ編集委員、
起業塾長
・氏名:藤田 幹夫(ふじた・みきお)66歳
・出身:香川県丸亀市
・出身高校/大学:香川県立丸亀高校/京都大学理学部
・役職:PDBマーケティング 代表取締役
京都からイノベーションを目指します。2017/5/1
・mail:fujita@p-db-m.com
・経歴:1974年 株式会社日本ビジネスコンサルタント 入社
1987年 兼(財)データベース白書編集委員2008年廃刊まで
2009年 PDBマーケティング株式会社代表就任(現在に至る)
—————————————————————-