python学習ルート

爬虫類

基本的な知識：ウェブサイト、html、python、マルチプロセス/マルチスレッド/ coroutineなどの基本原則（学ぶ必要があります）
HTMLファウンデーション、ネットワークリクエストモジュール：リクエスト（学習する必要があります）、urllib（理解できます）
いくつかの一般的なアンチクライミング戦略と対応するソリューションを理解する必要があります。一般的なものには、IP周波数制限、ユーザーエージェント、リファラー、Origen検証、Cookie制限、動的ロードおよび検証コードなどが含まれます。

対応する処理方法には、IPプロキシプール、偽造ヘッダー、Cookieの保存と処理（基本高度）が含まれます。

データの分析と処理

・基本的な知識：ウェブサイト、html、python、マルチプロセス/マルチスレッド/ coroutineなどの基本原則（必須）

・HTMLベース、ネットワークリクエストモジュール：リクエスト（学習する必要があります）、urllib（理解できます）

・いくつかの一般的なアンチクライミング戦略と対応するソリューションを理解する必要があります：一般的なIP周波数制限、ユーザーエージェント、リファー、オリゲン検証、Cookie制限、動的ロードおよび検証コードなど。

対応する処理方法には、IPプロキシプール、偽造ヘッダー、Cookieの保存と処理（基本高度）が含まれます。

・Webページの分析と抽出：Beautifulsoup＆Xpath（1つ選択）、通常の表現（学習する必要があります）

・JS、js暗号化およびSelenium、OCR認識またはコーディングプラットフォームの動的実行（オプション）

・データストレージ（ファイルの読み取りと書き込み、データベース、Excel / CSVモジュールなど）（必須）

ビッグデータ（データマイニング、機械学習）

ブースティング、クラスタリング、推奨システム、pLSA、LDA、GDBT、正規化、異常検出、EMアルゴリズム、Apriori、

FPグロース等（必須）