『スクレイピング』 インスクエア ビジネスニュース Vol.1318
■[ インスクエア ビジネスニュース ]━■
エイジレスな起業支援
インスクエアが送る【最新!ビジネス情報】
http://in-sq.com
■━━━━━━[vol.1318] 2017/06/30━━■
メルマガ無料購読申込はこちら
━━┳━━━━━━━━━━━━━━━━━━━━━━
01 ┃ 本日のコラム -『 スクレイピング 』
━━┃…………………………………………………………
┃ / 藤田 幹夫(PDBマーケティング株式会社)
━━━━━━━━━━━━━━━━━━━━━━━━━
PDBマーケティング藤田です。
5月1日京都に移って、2か月です。
今日はこちらで習得に努めている、技術の話です。
タイトルにした「スクレイピング」:Wikipediaでは以下
の説明です。
ウェブスクレイピング(英: Web scraping)とは、
ウェブサイトから情報を抽出するコンピュータソフトウェア
技術のこと。 ウェブ・クローラーあるいはウェブ・
スパイダーとも呼ばれる。
インターネットには膨大な情報がありますが、個別に参照
したり、必要な箇所を都度コピペするのでは、効率的な
活用ができないことも多々あります。
たくさんのページから一気に情報を取得して、データとして
加工・編集する。
こうした時に使うのが、このスクレイピングです。
今、AIの応用として、スマホで撮影した料理画像からレシピ
を自動判定し、摂取栄養素、カロリーを算出して、栄養指導に
つなげるアプリを検討しています。
機械学習をさせる教師データとして、かなりの画像データが
必要です。
IBMが提供するクラウドサービスで、AIツールWatsonの
APIが提供されており、教師データとして適合する画像データ
があれば、任意の対象に自由に適用できます。
猫の識別には関心がありませんが、レシピ自動識別は有効です。
最新の技術によるエンジン開発はIBMが進めていますが、
適用する素材は、利用者の責任で準備します。
機械学習という名前の通り、Watsonは識別をルールでやる
のでなく、画像から自動的に差異を判別します。
識別カテゴリーに対して、50種類の画像が必要です。
レシピを100種類判別させたいときは、5000枚です。
この選択も判定結果に影響するので、準備すべき画像データを
20倍=10万件と設定です。
ここから選択します。
ネットではレシピは膨大に公開されているのですが個別に
コピペでは10万件は取得委出来ません。
スクレイピングの登場です。
スクレイピングにもいくつかの方式があります。
自動的にリンク先をたどって関連すると想定されるデータを
一式持ってくる。
検索キーワードに合致したページから特定の情報を抽出する。
方式は異なりますが、共通しているのは情報取得対象となる
ページの構造の分析です。HTMLというホームページを記述して
いる言語=テキスト列の解析、読みくだしです。
検索窓の設定など、ある共通パターンはありますが、基本は
すべて異なっています。
これをたどって、取得アイテムを設定します。
この労をいとわなければ、ツール、APIなどすべての解説、
説明、事例は豊富にネット上で公開されています。これらを
参考にしながら進めます。
経過時間で2週間ほどで、対象とするサイトから情報を取得し、
今回必要な画像データのダウンロードまでの方式が
理解できました。
これによって、ネット上のデータを自由に取得できそうです。
「インターネットを巨大なデータベースとして活用する」と
いうのは私の課題でした。
この実現を目指して、PDFからの情報抽出をXMLで行う技術開発
を進めてきました。
残念ながら、実用化に至らずプロジェクトは中止となりました。
PDFの情報抽出は公開情報を使って可能ですが、容易ではない。
HTMLの記述ソースコードは、だれでも右クリックからメニューを
選択するとみることができます。
これを読み取って、情報を取得するのははるかに解りやすい。
情報を取得したい人、エンジニアもたくさんの人が、それぞれに
工夫したアプローチをしています。
その経験、履歴を参照することで、新規にスクレイピングを
行うハードルが大きく下がります。
当然、技術レベルによって取得情報の精度、効率など異なり
ますが、初心者は初心者なりに、自分が必要な情報を取得
できることは素晴らしい。
PDF2XMLにはなかった要素です。
スクレイピングは様々な領域に適用できそうです。
—————————————————
▼プロフィール:インスクエアメルマガ編集委員、
起業塾長
・氏名:藤田 幹夫(ふじた・みきお)66歳
・出身:香川県丸亀市
・出身高校/大学:香川県立丸亀高校/京都大学理学部
・役職:PDBマーケティング 代表取締役
京都からイノベーションを目指します。2017/5/1
・mail:fujita@p-db-m.com
・経歴:1974年 株式会社日本ビジネスコンサルタント 入社
1987年 兼(財)データベース白書編集委員2008年廃刊まで
2009年 PDBマーケティング株式会社代表就任(現在に至る)
—————————————————————