爬虫類
基本的な知識:ウェブサイト、html、python、マルチプロセス/マルチスレッド/ coroutineなどの基本原則(学ぶ必要があります)
HTMLファウンデーション、ネットワークリクエストモジュール:リクエスト(学習する必要があります)、urllib(理解できます)
いくつかの一般的なアンチクライミング戦略と対応するソリューションを理解する必要があります。一般的なものには、IP周波数制限、ユーザーエージェント、リファラー、Origen検証、Cookie制限、動的ロードおよび検証コードなどが含まれます。
対応する処理方法には、IPプロキシプール、偽造ヘッダー、Cookieの保存と処理(基本高度)が含まれます。
Webページ分析の抽出:Beautifulsoup&Xpath(1つ選択)、正規表現(学習する必要があります)
JS、js暗号化、Selenium、OCR認識またはコーディングプラットフォームの動的実行(オプション)
データストレージ(ファイルの読み取りと書き込み、データベース、Excel / CSVモジュールなど)(必須)
ネットワークパケットキャプチャ分析(オプション)
クローラーフレームワーク:Scrapy(オプション)、pyspider(オプション)
分散クローラー(オプション)
データの分析と処理
基本的な知識:python(関数、モジュール、オブジェクト指向)、正規表現、JSON(学習する必要があります)
上記のクローラーに関連して:
・基本的な知識:ウェブサイト、html、python、マルチプロセス/マルチスレッド/ coroutineなどの基本原則(必須)
・HTMLベース、ネットワークリクエストモジュール:リクエスト(学習する必要があります)、urllib(理解できます)
・いくつかの一般的なアンチクライミング戦略と対応するソリューションを理解する必要があります:一般的なIP周波数制限、ユーザーエージェント、リファー、オリゲン検証、Cookie制限、動的ロードおよび検証コードなど。
対応する処理方法には、IPプロキシプール、偽造ヘッダー、Cookieの保存と処理(基本高度)が含まれます。
・Webページの分析と抽出:Beautifulsoup&Xpath(1つ選択)、通常の表現(学習する必要があります)
・JS、js暗号化およびSelenium、OCR認識またはコーディングプラットフォームの動的実行(オプション)
・データストレージ(ファイルの読み取りと書き込み、データベース、Excel / CSVモジュールなど)(必須)
データ分析関連ライブラリ:Pandas、Numpy、Scipy、スタッター分析など(必須)
チャートの描画と視覚化:Matplotlip、ワードクラウド(学習する必要があります)
ビッグデータ(データマイニング、機械学習)
基本的な知識:python(基本+上級)(学ぶ必要があります)
財務、統計、経済学、投資(必須)
データストレージ(ファイルの読み取りと書き込み、データベース、Excel / CSVモジュールなど)(必須)
データ分析関連のライブラリ:Pandas、Numpy、Scipy、スタマーワードセグメンテーション(学習する必要があります)
チャートの描画と視覚化:Matplotlipなど(必須)
機械学習関連のモデル知識:ナイーブベイズ、意思決定ツリー、ロジスティック回帰、線形回帰、KNNアルゴリズム、SVM、
ブースティング、クラスタリング、推奨システム、pLSA、LDA、GDBT、正規化、異常検出、EMアルゴリズム、Apriori、
FPグロース等(必須)
Recommended Posts