ビッグデータの時代の到来により、データは石炭電気油と同様に私たちの最も重要なエネルギー源の1つになりますが、この種のエネルギーは継続的に生産され、再生可能です。データ取得の重要な部分として、Pythonクローラーはビッグデータの時代に非常に重要な役割を果たします。非常に多くの学生が相談に来ました:Pythonクローラーは簡単に習得できますか?
クローラーとは
Webスパイダー、Webロボットとも呼ばれるWebクローラーは、特定のルールに従ってWorld WideWeb上の情報を自動的にクロールするプログラムまたはスクリプトです。
**データはどこから来ていますか? ****
Pythonを学びたい場合は、最初に次の質問をしてください。クロールするデータはどこから来たのですか?
企業によって生成されたユーザーデータ:Baiduインデックス、Aliインデックス、TBI Tencent Browsingインデックス、SinaWeiboインデックス。
データプラットフォーム購入データ:Datatang、Guoyun Data Market、Guiyang Big Data Exchange;
政府/機関の公開データ:中華人民共和国の国家統計局からのデータ、世界銀行からのデータ、国連、ナスダックからのデータ。
データ管理コンサルティング会社:McKinsey、Accenture、iResearch;
ネットワークデータのクロール:必要なデータが市場にない場合、または購入したくない場合は、クローラーエンジニアを採用するか、自分で行うかを選択できます。
ページデータを取得する方法
Webページの3つの特徴:
Webページには、検索するための独自のURL(Uniform Resource Locator)があります。
WebページはHTML(ハイパーテキストマークアップ言語)を使用してページ情報を記述します。
WebページはHTTP / HTTPS(Hypertext Transfer Protocol)プロトコルを使用してHTMLデータを送信します。
クローラーデザインのアイデア:
まず、クロールする必要のあるWebページのURLアドレスを決定します。
HTTP / HTTPプロトコルを介して対応するHTMLページを取得します。
HTMLページから有用なデータを抽出します。
a。必要なデータの場合は、保存します。
b。ページ上の別のURLである場合は、2番目の手順に進みます。
結論:Pythonクローラー学習は、実際にはPython学習プロセスの基本的なエントリーレベルの部分です。学習するのは難しくありませんが、それは確かに専門的な能力に不可欠なスキルの1つです。 、
コンテンツの拡張:
簡単なクローラーの例:
import urllib,urllib2
import re
def geturllist():
# サーバーにアクセスするブラウザーをシミュレートするために、Webサイトにアクセスするのではなく、オブジェクトをインスタンス化します。
req = urllib2.Request("http://www.budejie.com/video/")
# アクセスを要求するヘッダーを追加して、他のサーバーがアクセスを要求しているブラウザーであると誤って信じるようにします(パラメーターはブラウザーを介してコピーされます)
req.add_header('User-Agent',' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36')
# 作成したインスタンスオブジェクトを開きます
res =urllib2.urlopen(req)
html = res.read()
print html #リソースコード
# 必要なビデオURLを取得するために、通常の式を定義します
reg = r'data-mp4="(.*?)" '
# WebページのソースコードでビデオURLを見つけます
urllist = re.findall(reg,html)
# print urllist
# 20のビデオURLがあり、forループを使用して1つずつダウンロードします
n =1for url in urllist:
# urlビデオURL、'%s.mp4'ダウンロードした名前、URL.split('/')[-1]'として文字列に従ってください/'分ける
urllib.urlretrieve(url,'%s.mp4'%url.split('/')[-1]) #ビデオをダウンロード
n = n+1geturllist()
これで、Pythonクローラーは簡単に習得できますか?関連するPythonクローラーについては、ZaLou.Cnを検索してください。
Recommended Posts