数日前にダクアイが開催したビッグデータフォーラムサミットの生放送を見て、hanlp2.0バージョンがリリースされたことに嬉しい驚きを覚えました。 Hanlp2.0バージョンは任意の数の言語をサポートし、かなり気持ちがいいです!しかし、hanlp2.0の詳細については、表示に時間がかかる場合があります。しばらく待つしかありません。以下は偉大な神による記事で、ubuntuの下でpycharmを使用してhanlpを呼び出す実験についてです。
以下は全文です:
最初に[ファイル]をクリックし、[設定]を選択し、[プロジェクト]の下の[プロジェクトインタープリター]をクリックして、右側のプラス記号をクリックします。
JPypeを検索し、Pythonのバージョンに応じてインストールする必要のあるJPypeのバージョンを選択します。
その後、https://github.com/hankcs/HanLP/releasesで
Webサイトからhanlp.jarパッケージ、モデルデータパッケージ、および構成ファイルhanlp.propertiesをダウンロードし、新しいフォルダーHanlpを作成します。
hanlp.jarとhanlp.propertiesを配置します。次に、新しいフォルダーhanlpを作成し、データを配置する必要があります。
データを/ home / javawork / hanlpの下に置いたので、Hanlpの下のパスを現在のデータのパスに変更します。root= / home / javawork / hanlp /
次に、新しいファイルdemo_hanlp.pyを作成します。コードは次のとおりです。
#! /usr/bin/env python2.7
from jpype import *
startJVM(getDefaultJVMPath(), "-Djava.class.path=/home/qinghua/javawork/Hanlp/hanlp-1.2.7.jar:/home/qinghua/javawork/Hanlp")
HanLP = JClass('com.hankcs.hanlp.HanLP')
print(HanLP.segment( 'こんにちは、PythonでHanLPのAPIを呼び出すことを歓迎します'))
testCases = [
"物品・サービス"、
「既婚者と未婚者は確かに参加者を妨害している」、
「果物を買って博覧会の会場に来て、ついに博覧会で死ぬ」]
for sentence in testCases: print(HanLP.segment(sentence))
NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
print(NLPTokenizer.segment( '中国科学アカデミーコンピューティングテクノロジー研究所のZongChengqing教授が自然言語処理コースを教えています'))
document = "9月29日に州議会の情報局が開催した記者会見で、水資源省の水資源局長であるChenMingzhongが明らかにした" \
「完了したばかりの水資源管理システムの評価によると、一部の州は赤線の指標に近づいています。」\
「赤い線を超える州がいくつかあります。赤い線を超える場所については、Chen Mingzhongは、一部の水抽出プロジェクトの地域承認が制限されると述べました。」\
「水資源のデモンストレーションと水抽出許可の承認を厳密に実施してください。」
print(HanLP.extractKeyword(document, 2))
print(HanLP.extractSummary(document, 3))
print(HanLP.parseDependency( "Xu氏はまた、主なターゲットとしてワシ、リス、スズメの絵を決定するのを特に助けました。"))
shutdownJVM()
ubuntuのパス区切り文字は「:」であり、ウィンドウは「;」であることに注意してください。
添付されているのは、hanlp呼び出しに関してよく寄せられる質問のコレクションです。
github.com/hankcs/HanLP/issues?page=3&q=is%3Aissue+is%3Aopen
著者:imperfect00
Recommended Posts