私の静的なウェブサイトのために自己ホストされた非Java検索エンジン

私は静的なウェブサイトをインデックスする検索エンジンを自主的にホストしたいと思う。

私はこれらのサイトにCMS(通常は検索エンジンが組み込まれています)を使いたくないので、訪問者をサードパーティの検索エンジンサービスに紹介したくありません。

ユーザーフレンドリーな検索エンジン(Google、Bingなど)である必要はなく、主にパワーユーザー向けです。複雑な検索構文が必要な場合があります。

要件

形式:

  • 検索エンジンはFLOSSでなければなりません。

  • GNU/Linuxサーバーで実行する必要があります。

  • Javaを使用してはいけません(Javaではいくつかの良い検索エンジンプロジェクトがありますが、残念ながら私のホストはそれをサポートしていません)。

バックエンド:

  • 検索エンジンはHTML5のインデックスを作成する必要があります(X)。他のフォーマットのサポートは必要ありません。

  • クローラが自分のページを自分自身で見つけることは望ましくありません。代わりに、クロールする必要があるURLのリストを提供したいと思います( sitemaps.orgの形式)。

  • ドキュメントに関するメタデータをドキュメント自体以外の場所に追加することは望ましくありません。

フロントエンド:

  • 検索エンジンにはJavaScriptは必要ありません(オプション機能を除く)。
  • Cookieを設定してはいけません(ユーザーが設定フォームなどを明示的に提出しない限り)。

私の願い事リスト

    インデックス作成:フルテキストに加えて、メタタグやRDFa/JSONなど、可能な限り多くの信号(例:名前と値のペアの形式) -LD、意味要素など

  • SERP:インデックスデータに応じて、結果をどのように表示するかを定義できます。 Googleのリッチスニペットに似ています。たとえば、画像、リスト、ショートテーブルなどを表示します。

  • ランキング:ランキングアルゴリズムを微調整できます。

  • 検索演算子:少なくともブール値 AND / OR / NOT をサポートする必要があります。 >と括弧(例:(ラップトップORノートブック)(レビューORレビュー)-netbook )。演算子が多いほど、フレーズ/レンジ/近接検索、フィールドベース検索、特殊文字、大文字小文字の区別など)

5
@Mawg:バックエンド:Javaの代わりに、PHP、Python、Ruby、PerlなどのWebサーバーで一般的に使用できる他のプログラミング言語を使用できます。 --- Frontend:JavaScriptは必要ありません。これは、検索フィールドのためのプレーンなHTMLフォームと結果のためのプレーンなHTMLリストです。 ---はい、それはブラウザで使用するはずです - 私は私のウェブサイトにそれを統合します。
追加された 著者 Dave Ward,
Javaはありませんか? JavaScriptはありませんか?どのように実行する予定ですか?何か不足していますか?申し訳ありませんが、それが無礼に聞こえる場合、それは意味されません。私はおそらくちょうど愚かであるでしょう:-)あなたはSourceForgeなどをチェックしたと推測します。それはブラウザで実行されるはずですが、
追加された 著者 Mawg,

2 答え

古い ht:dig についてはどうですか?

最後のリリースは2004年のものですから、HTML5で導入された新しい要素をどのようにインデックス化するのかよくわかりません。

HTML以外のテキスト形式(PDF、DOCX ...)のサポートも最適ではありませんが、これは要件リストにはありません。

0
追加された

I also recommend sphinx - see sphinxsearch.com

Sphinxは、オープンソースのフルテキスト検索サーバです。   パフォーマンス、関連性(検索品質とも呼ばれます)、および   統合の簡素化を念頭に置いてこれはC ++で書かれており、Linux上で動作します   (RedHat、Ubuntuなど)、Windows、MacOS、Solaris、FreeBSDなど   他のシステム。

Sphinxでは、SQLデータベース、NoSQLストレージ、またはファイルだけを素早く簡単に索引付けおよび検索することができます。

私は、LinuxとWindowsでうまくいっているだけの経験があります。

0
追加された