バーチャルオフィスのinsquare|TOP > インスクエアメルマガ バックナンバー


TOP >> ;『スクレイピング(2)』 インスクエア ビジネスニュース Vol.1330

『スクレイピング(2)』 インスクエア ビジネスニュース Vol.1330

■[ インスクエア ビジネスニュース ]━■

 エイジレスな起業支援
 インスクエアが送る【最新!ビジネス情報】
 http://in-sq.com
■━━━━━━[vol.1330] 2017/07/14━━■

メルマガ無料購読申込はこちら

━━┳━━━━━━━━━━━━━━━━━━━━━━
01 ┃ 本日のコラム -『 スクレイピング(2) 』
━━┃…………………………………………………………
  ┃ / 藤田 幹夫(PDBマーケティング株式会社)
━━━━━━━━━━━━━━━━━━━━━━━━━
PDBマーケティング藤田です。
今日は、7月に入って集中して習得に努めている、
技術の話です。
2週間前に紹介した「スクレイピング」=インターネット
情報収集の仕組みへのチャレンジ経過です。

様々なHPに記載されている情報、画像を自分で自由に
収集利用できると非常に便利です。
目視確認して、コピペで収集するのと比較して効率が
飛躍的に向上します。
インターネットが、膨大なデータベースに変わります。

これが、一般的に困難なのは、HPを記述する言語が
HTMLという言語で記述され、プログラムによるアクセス
ではなく、人の目視を前提としていることにあります。
人は目視で、一覧表などの構成を理解し、項目名とその
内容の関係を瞬時に識別します。

プログラムでアクセスするのは、HPの画面ではなくて、
画面を表現するHTMLで記述された文字の集合体です。
例えば、以下のアットビジネスセンターのアクセス。

http://abc-kaigishitsu.com/ikebukuro/access.html

ページが開いた状態で、右クリック>「ページのソースを
表示」を選択すると、たくさんの文字列が表示されます。

このコードは、画面を見てもらうための工夫はいろいろ
できるようになっていて自由度が高くなっています。
しかし、情報の説明記述方式がルール化されていないので、
自動収集には極めて不都合です。

しかし、ある特定のサイトに注目すると、独自のルールを
持っています。
このルールを分析すると、対象とする情報を識別して
自動的に収集するとこが可能です。

かなり根気がいることですが、例えば10万件の情報を
集めることを考えると、努力する価値があります。

2つめの課題は、情報収集を自動的に行うためには
取得したい項目を定義する、何らかのプログラムを
作成する必要があります。
プログラミング技術です。

3つめは、実際に対象となるサイトに連続的にアクセス
して、必要な情報を収集する運用環境です。
10万件の情報を収集しようとすると、当然それ以上の
アクセスが行えないと収集できません。
リンクを自動的にたどって深く入っていく方式の場合も
あります。

自分のPCからでも、時間をかけて原理的に可能ですが、
サイトによっては、機械アクセスを排除する仕組みがあります。
アクセス頻度で拒否のケースもあり、人を模倣して5秒間隔を
あけるといった対応も必要です。

間隔をあけると、収集時間が長くなります。
複数のPCで対応するなど、最適化を追求した環境構築が
課題となります。
当然、今主流のクラウドサービスにもあります。
80legsというサービスです。

日本語での紹介は少ないのですが、利用できます。
5万台のPCが稼働して、IPアドレスなど動的に切り替えて
一気に収集するようです。
標準プログラムでは、収集を確認しました。

今週は、収集情報のカスタマイズにかかっています。
2つ目の課題とした、プログラムがjavascriptです。
すでに、Excelシートで定義された対象情報をVBAで取得する
仕組みは構築済でしたが、環境変化で、やり直しです。

Javascript/jQueryなど日常的に聞いてきたが、自分で
構築経験はありません。
クラウドによるスクレイピングは、非常に魅力的なので
この機会にチャレンジしています。

評価サイトを既存サイトを参考にして、仮設、いくつかの
スクリプトによって収集する。
過不足を判断して、スクリプトの修正です。
基本この繰り返し。
まさにプログラミングそのものです。

その先に5万台のサーバを使ってインターネット
コンテンツが自由に収集できる世界が広がります。
その魅力にひかれて、実践に入っています。

来週は、結果報告ができるように努めます。

今京都では、7月の祇園祭に入っています。
1か月のお祭りです。
日中は30度を超え、いよいよ夏本番です。

—————————————————
▼プロフィール:インスクエアメルマガ編集委員、
 起業塾長
・氏名:藤田 幹夫(ふじた・みきお)66歳
・出身:香川県丸亀市
・出身高校/大学:香川県立丸亀高校/京都大学理学部
・役職:PDBマーケティング 代表取締役
 京都からイノベーションを目指します。2017/5/1
・mail:fujita@p-db-m.com
・経歴:1974年 株式会社日本ビジネスコンサルタント 入社
    1987年 兼(財)データベース白書編集委員2008年廃刊まで
    2009年 PDBマーケティング株式会社代表就任(現在に至る)
—————————————————————

関連記事

« 6月 2024 4月 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30