Ubuntu16.04にSphinxをインストールして構成する方法

前書き＃＃

Sphinxは、全文検索を可能にするオープンソースの検索エンジンです。ご存知のとおり、ビッグデータを非常に効果的に検索できます。インデックス付けされるデータは通常、SQLデータベース、プレーンテキストファイル、HTMLファイル、メールボックスなど、非常に異なるソースから取得されます。

Sphinxの主な機能には次のものがあります。

高いインデックスと検索パフォーマンス
高度なインデックス作成およびクエリツール
高度な結果セットの後処理
数十億のドキュメント、数テラバイトのデータ、および1秒あたり数千のクエリに対する実証済みのスケーラビリティ
SQLおよびXMLデータソースとSphinxQL、SphinxAPI、またはSphinxSE検索インターフェイスとの統合が簡単
分散検索で簡単に拡張

このチュートリアルでは、配布パッケージに含まれているサンプルSQLファイルを使用して、SphinxサーバーとMySQLサーバーをセットアップします。プロジェクトでSphinxを使用する方法に関する基本的な知識を提供します。

準備＃＃

このガイドを開始する前に、次のことを行う必要があります。

Ubuntu16.04サーバー。サーバーをお持ちでない学生は[こちら]（https://cloud.tencent.com/product/cvm?from=10680）から購入できますが、個人的には無料のTencent Cloud [Developer Lab]（https://cloud.tencent.com/developer/labs?from=10680）を使用して実験し、[サーバーを購入]（ https://cloud.tencent.com/product/cvm?from=10680）。
sudo権限を持つ非rootユーザー。
サーバーにMySQLをインストールします。実稼働環境で使用する場合は、[Cloud Relational Database]（https://cloud.tencent.com/product/cdb-overview?from=10680）を直接使用することをお勧めします。Cloud[Relational Database]（https://cloud.tencent.com/product/cdb-overview?from=10680）を使用すると、クラウドでリレーショナルデータベースを簡単に展開、管理、拡張できるため、安全で信頼性が高くなります。、スケーラブルで柔軟なオンデマンドクラウドデータベースサービス。 Tencent Cloudリレーショナルデータベースは、MySQL、[SQL Server]（https://cloud.tencent.com/product/sqlserver?from=10680）、MariaDB、PostgreSQLデータベースエンジンを提供し、データベースエンジンのパフォーマンスを最適化します。

ステップ1-Sphinxをインストールする

Sphinxはネイティブパッケージリポジトリにあるため、Ubuntuへのインストールは非常に簡単です。 apt-getを使用してインストールします。

sudo apt-get install sphinxsearch

これで、サーバーにSphinxが正常にインストールされました。 Sphinxデーモンを起動する前に、構成しましょう。

ステップ2-テストデータベースを作成する

次に、パッケージに付属のSQLファイルのサンプルデータを使用してデータベースを設定します。これにより、Sphinx検索が将来機能するかどうかをテストできます。

サンプルSQLファイルをデータベースにインポートしてみましょう。まず、MySQLサーバーシェルにログインします。

mysql -u root -p

求められたら、MySQLルートユーザーのパスワードを入力します。プロンプトが mysql>に変わります。

仮想データベースを作成します。ここではテストと呼びますが、必要に応じて名前を付けることができます。

CREATE DATABASE test;

サンプルSQLファイルをインポートします。

SOURCE /etc/sphinxsearch/example.sql;

次に、MySQLシェルを終了します。

quit

これで、サンプルデータが入力されたデータベースができました。次に、Sphinxの構成をカスタマイズします。

ステップ3-Sphinxを構成する

Sphinxの構成は、 / etc / sphinxsearchの sphinx.confという名前のファイルにある必要があります。この構成には、操作に不可欠な3つの主要なブロック、インデックス、検索、およびソースが含まれています。後でカスタマイズできるように、各パーツを使用および説明するためのサンプル構成ファイルを提供します。

まず、 sphinx.confファイルを作成します。

sudo nano /etc/sphinxsearch/sphinx.conf

以下では、** index 、 search 、 source **ブロックを順番に説明します。次に、この手順の最後に、 sphinx.confを含むコンテンツ全体をコピーして、ファイルに貼り付けることができます。

**source **ブロックには、MySQLサーバータイプのソース、ユーザー名、およびパスワードが含まれています。 sql_queryの最初の列は一意のIDである必要があります。 SQLクエリは各インデックスで実行され、データをSphinxインデックスファイルにダンプします。以下は、各フィールドとソースブロック自体の説明です。

type：インデックスを作成するデータソースのタイプ。この例では、これは** mysql **です。サポートされている他のタイプには、pgsql、mssql、xmlpipe2、odbcなどがあります。
sql_host：MySQLホストのホスト名。この例では、これは localhostです。これは、ドメインまたはIPアドレスにすることができます。
sql_user：MySQLログインのユーザー名。この例では、これは** root **です。
sql_pass：MySQLユーザーのパスワード。この例では、これはルートMySQLユーザーのパスワードです。
sql_db：データが保存されているデータベースの名前。私たちの場合、これはテストです。
sql_query：データベースからインデックスにデータをダンプするクエリ。

これはソースブロックです：

source src1
{
 type          = mysql

 # SQL settings(for ‘mysql’ and ‘pgsql’ types)

 sql_host      = localhost
 sql_user      = root
 sql_pass      = password
 sql_db        = test
 sql_port      =3306 # optional,default is 3306

 sql_query     = \
 SELECT id, group_id,UNIX_TIMESTAMP(date_added) AS date_added, title, content \
 FROM documents

 sql_attr_uint         = group_id
 sql_attr_timestamp    = date_added
}

** index **コンポーネントには、ソースとストレージのデータパスが含まれています。に

source：ソースブロックの名前。この例では、これは** src1 **です。
path：インデックスを保存するためのパス。

index test1
{
 source        = src1
 path          =/var/lib/sphinxsearch/data/test1
 docinfo       = extern
}

** searchd **コンポーネントには、Sphinxデーモンを実行するためのポートおよびその他の変数が含まれています。

listen：Sphinxデーモンが実行されるポートと、それに続くプロトコル。この例では、これは** 9306：mysql41 *です。既知のプロトコルは：sphinx （SphinxAPI）および：mysql41 *（SphinxQL）です。
query_log：クエリログを保存するためのパス。
pid_file：SphinxデーモンのPIDファイルのパス。
シームレス回転：大量のデータを含むインデックスをプリキャッシュにローテーションするときに検索が停止するのを防ぎます。
preopen_indexes：起動時にすべてのインデックスを事前に開くように強制するかどうか。
unlink_old：ローテーションが成功したときに古いインデックスコピーを削除するかどうか。

searchd
{
 listen            =9312:sphinx       #SphinxAPI port
 listen            =9306:mysql41      #SphinxQL port
 log               =/var/log/sphinxsearch/searchd.log
 query_log         =/var/log/sphinxsearch/query.log
 read_timeout      =5
 max_children      =30
 pid_file          =/var/run/sphinxsearch/searchd.pid
 seamless_rotate   =1
 preopen_indexes   =1
 unlink_old        =1
 binlog_path       =/var/lib/sphinxsearch/data
}

コピーして貼り付ける完全な構成は次のとおりです。以下で変更する必要がある唯一の変数は、ソースブロックの sql_pass変数で、次のようになります。

source src1
{
 type          = mysql

 sql_host      = localhost
 sql_user      = root
 sql_pass      = your_root_mysql_password
 sql_db        = test
 sql_port      =3306

 sql_query     = \
 SELECT id, group_id,UNIX_TIMESTAMP(date_added) AS date_added, title, content \
 FROM documents

 sql_attr_uint         = group_id
 sql_attr_timestamp    = date_added
}
index test1
{
 source            = src1
 path              =/var/lib/sphinxsearch/data/test1
 docinfo           = extern
}
searchd
{
 listen            =9306:mysql41
 log               =/var/log/sphinxsearch/searchd.log
 query_log         =/var/log/sphinxsearch/query.log
 read_timeout      =5
 max_children      =30
 pid_file          =/var/run/sphinxsearch/searchd.pid
 seamless_rotate   =1
 preopen_indexes   =1
 unlink_old        =1
 binlog_path       =/var/lib/sphinxsearch/data
}

より多くの構成を調べるには、 / etc / sphinxsearch / sphinx.conf.sampleファイルを確認してください。このファイルには、より詳細に説明されているすべての変数が含まれています。

ステップ4-インデックスの管理

このステップでは、Sphinxインデックスにデータを追加し、 cronを使用して、インデックスが最新のデータを保持するようにします。

まず、前に作成した構成を使用して、インデックスにデータを追加します。

sudo indexer --all

次のようなものが得られるはずです。

Sphinx 2.2.9-id64-release(rel22-r5006)Copyright(c)2001-2015, Andrew Aksyonoff
Copyright(c)2008-2015, Sphinx Technologies Inc(http://sphinxsearch.com)

using config file '/etc/sphinxsearch/sphinx.conf'...
indexing index 'test1'...
collected 4 docs,0.0 MB
sorted 0.0 Mhits,100.0% done
total 4 docs,193 bytes
total 0.010 sec,18552 bytes/sec,384.50 docs/sec
total 4 reads,0.000 sec,0.1 kb/call avg,0.0 msec/call avg
total 12 writes,0.000 sec,0.1 kb/call avg,0.0 msec/call avg

実稼働環境では、インデックスを最新の状態に保つ必要があります。これを行うには、cronjobを作成しましょう。まず、crontabを開きます。

crontab -e

使用するテキストエディタを尋ねられる場合があります。好きなものを選んでください。このチュートリアルでは、 nanoを使用しました。

次のcronjobは1時間ごとに実行され、前に作成した構成ファイルを使用して新しいデータをインデックスに追加します。それをコピーしてファイルの最後に貼り付けてから、ファイルを保存して閉じます。

@ hourly /usr/bin/indexer --rotate --config /etc/sphinxsearch/sphinx.conf --all

Sphinxが完全にセットアップおよび構成されたので、サービスを開始して試してみることができます。

ステップ5-Sphinxを開始

デフォルトでは、Sphinxデーモンはオフになっています。まず、 / etc / default / sphinxsearchの行 START = noを START = yesに変更して有効にします。

sudo sed -i 's/START=no/START=yes/g'/etc/default/sphinxsearch

次に、 systemctlを使用してSphinxデーモンを再起動します。

sudo systemctl restart sphinxsearch.service

Sphinxデーモンが正しく実行されているかどうかを確認するには、それを実行します。

sudo systemctl status sphinxsearch.service

次のようなものが得られるはずです。

● sphinxsearch.service - LSB: Fast standalone full-text SQL search engine
 Loaded:loaded(/etc/init.d/sphinxsearch; bad; vendor preset: enabled)
 Active:active(running) since Tue 2016-07-2601:50:00 EDT; 15s ago
   ...

これにより、サーバーが再起動された場合でも、Sphinxデーモンが確実に起動します。

ステップ6-テスト

すべての設定が完了したので、検索機能をテストしてみましょう。 MySQLインターフェイスを使用してSphinxQL（ポート9306）に接続します。プロンプトが mysql>に変わります。

mysql -h0 -P9306

文章を検索してみましょう。

SELECT * FROM test1 WHERE MATCH('test document'); SHOW META;

次のようなものが得られるはずです。

+- - - - - - +- - - - - - - - - - +- - - - - - - - - - - - +| id   | group_id | date_added |+------+----------+------------+|1|1|1465979047||2|1|1465979047|+------+----------+------------+2 rows inset(0.00 sec)

+- - - - - - - - - - - - - - - +- - - - - - - - - - +| Variable_name | Value    |+---------------+----------+| total         |2|| total_found   |2|| time          |0.000|| keyword[0]| test     || docs[0]|3|| hits[0]|5|| keyword[1]| document || docs[1]|2|| hits[1]|2|+---------------+----------+9 rows inset(0.00 sec)

上記の結果では、Sphinxがテスト文のインデックス test1で2つの一致を検出したことがわかります。 SHOW META;コマンドは、文中の各キーワードのヒット数も表示します。

いくつかのキーワードを検索してみましょう。

CALL KEYWORDS('test one three','test1',1);

次のようなものが得られるはずです。

+- - - - - - +- - - - - - - - - - - +- - - - - - - - - - - - +- - - - - - +- - - - - - +| qpos | tokenized | normalized | docs | hits |+------+-----------+------------+------+------+|1| test      | test       |3|5||2| one       | one        |1|2||3| three     | three      |0|0|+------+-----------+------------+------+------+3 rows inset(0.00 sec)

上記の結果では、** test1 **インデックスで、Sphinxが次のことを検出したことがわかります。

キーワード「test」の3つのドキュメントで5つの一致
1 ドキュメント内の2つの一致するキーワード「one」
0 ドキュメント内の0件の一致はキーワード「3」です

これで、MySQLシェルを離れることができます。

quit

結論として＃＃

このチュートリアルでは、Sphinxをインストールし、SphinxQLとMySQLを使用して簡単な検索を行う方法を示しました。

Sphinxを使用すると、カスタム検索をWebサイトに簡単に追加できます。

Sphinx関連のチュートリアルのインストールと構成の詳細については、[Tencent Cloud + Community]（https://cloud.tencent.com/developer?from=10680）にアクセスして詳細を確認してください。

参照：「Ubuntu16.04にSphinxをインストールして構成する方法」

Ubuntu16.04にSphinxをインストールして構成する方法

前書き ＃＃

準備 ＃＃

ステップ1-Sphinxをインストールする

ステップ2-テストデータベースを作成する

ステップ3-Sphinxを構成する

ステップ4-インデックスの管理

ステップ5-Sphinxを開始

ステップ6-テスト

結論として ＃＃

前書き＃＃

準備＃＃

結論として＃＃