PythonWebページパーサーの使用例の詳細な説明

pythonwebパーサー

1.一般的なpythonWebページ解析ツールには、定期的なマッチング、python独自のhtml.parserモジュール、サードパーティのライブラリBeautifulSoup(学習に重点を置いた)およびlxmライブラリが含まれます。

2.一般的なWebページパーサーの分類

(1)ファジーマッチング:通常の式は文字列のようなファジーマッチングモードです。

(2)構造化分析:BeatufiulSoup、html.parser、およびlxmlはすべて、タグ構造情報を抽出するための標準としてDOMツリー構造を使用します。

  1. DOMツリーの説明:つまり、ドキュメントオブジェクトモデルとそのツリーラベル構造。次の図を参照してください。

いわゆる構造化分析とは、WebページパーサーがダウンロードされたHTMLドキュメント全体をDoucmentオブジェクトとして扱い、その上下の構造のラベル形式を使用して、このオブジェクトの上下のラベルをトラバースし、情報を抽出することを意味します。

# Webページの取得と解析に最も一般的に使用されるライブラリである関連パッケージurllibとbs4を紹介します。
from urllib.request import urlopen
from bs4 import BeautifulSoup

# リンクを開く
html=urlopen("https://www.datalearner.com/website_navi")

# urlopenを介してWebページオブジェクトを取得し、bsObjによって保存されているターゲットWebページのhtmlドキュメントであるBeautifulSoupに配置します。

bsObj=BeautifulSoup(html.read())print(bsObj)

soup = BeautifulSoup(open(url,’r’,encoding = ‘utf-8’))

import requests
from bs4 import BeautifulSoup

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36','referer':"www.mmjpg.com"}
all_url ='http://www.mmjpg.com/'
 #' User-Agent':リクエスト方法
 #' referer':どのリンクからジャンプしましたか

start_html = requests.get(all_url, headers=headers)
 # all_url:最初にアクセスしたページである開始アドレス
 # ヘッダー:ヘッダーを要求し、サーバーに誰が来るかを伝えます。
 # requests.get:1つのメソッドですべてを取得できます_ページコンテンツをurlして、コンテンツを返します。

Soup =BeautifulSoup(start_html.text,'lxml')
 # BeautifulSoup:ページを解析します
 # lxml:パーサー
 # start_html.テキスト:ページのコンテンツ

以上が本稿の内容ですので、皆様のご勉強に役立てていただければ幸いです。

Recommended Posts

PythonWebページパーサーの使用例の詳細な説明
Pythondecimalモジュールの使用法の詳細な説明
pythonバックトラッキングテンプレートの詳細な説明
Pythonイールドの使用例の分析
pythonシーケンスタイプの詳細な説明
Pythonでの辞書の詳細な使用法
PythonIOポート多重化の詳細な説明
Python仮想環境venvの使用法の詳細な説明
pythonコマンドの-uパラメーターの詳細な説明
Python推測アルゴリズムの問題の詳細な説明
Python super()メソッドの原理の詳細な説明
python標準ライブラリOSモジュールの詳細な説明
pythonがコンカレントメソッドをサポートする方法の詳細な説明
Pythonに基づくデータタイプの詳細な説明
Pythonを使用してKSを計算する詳細な例
Python関数パラメータ分類の原理の詳細な説明
Pythonタイマースレッドプールの原理の詳細な説明
Pythonインターフェース開発の実装手順の詳細な説明
Pythonプロセス制御の一般的なツールの詳細な説明
Pythonオブジェクトの属性アクセスプロセスの詳細な説明
pythonに基づく残りの問題の詳細な説明(%)
pythonでのwheelの使用法
Pythonプラグインメカニズムの詳細な実装
gpg2を使用したubuntuの詳細な説明
Pythonエラー処理は詳細な説明を主張します
pythonでのosパッケージの使用
Centos6ネットワーク構成の詳細な例
python定義クラスの簡単な使用法
python操作redisのいくつかの例
pythonでのタプルの使用法
Pythonでのpipの使用に関する詳細な説明|サードパーティライブラリのインストールの概要
Python3クローラーでのAjaxの使用
Pythonガベージコレクションメカニズムの詳細な分析
属性からプロパティまでのPython詳細な説明
Ubuntu20.04インストールPython3仮想環境チュートリアル詳細な説明
CentOS6.5でのHadoop環境の構築に関する詳細な説明