キーワード検索を超えるオープンソース検索技術

ある研究者グループが数年前からひっそりと研究を続けてきた新しい検索技術が公開された。入力された文字列に一致するものを探すのではなく、照会の意図を認識して検索する技術だ。GPLの下でライセンスされ、デスクトップ版も間もなく登場する。

この技術は意味索引付けを利用している。さまざまな応用が考えられるが、最も簡単な応用に類語の検索がある。たとえば、「果物」で在庫データベースを検索すると「リンゴ」や「オレンジ」が抽出されるといった具合だ。

ミドルベリー大学 Semantic Indexing Projectの開発責任者Aaron Coburnによると、現在、オープンソース検索ツールキットの文書化を進めており、デスクトップ検索アプリケーションは完成間近、今月末にリリースされるという。

全ソースコードはGNU General Public Licenseの下で公開されており、ダウンロード可能。同プロジェクトの中核技術であるSemantic Engineは、C++コード、Perlバインディング、GUI構築用の全コード付きで配布。開発用のSubversionアーカイブも用意されている。Standalone Engineと呼ばれているデスクトップ・アプリケーションは、今月末の公開。

Coburnらは、それに先立ちさまざまな検索プロジェクト――著述家Stephen Johnsonの研究ノートから大英博物館(ロンドン)の収蔵品解説まで――に試験実装している。

その中で最も印象的なものは小説の図式化だ。『ドン・キホーテ』のための検索機能付きebookリーダーを作ろうとしていたスペインの研究者との緊密な協力で始まった実験だという。

「その後、可能な限りProject Gutenbergのテキストとして追加することにしました。言語はいろいろで、英語、フランス語、ドイツ語、ポーランド語、ロシア語などのものがあります」

このときCoburnはデータベースの意味データを図式化するソフトウェアを加えていたのだが、その結果、この検索ソフトウェアは強力な図式化ツールに変身した。手始めにジェーン・オースティンの小説に登場する人物の図式化を行ったところ、全物語のさまざまな関係が図式化された。「図らずも、このアルゴリズムが登場人物間の関係を抽出するのに極めて有効なことがわかりました」

それ以来、この図式化ツールをほかの小説、サミュエル・リチャードソンの『クラリッサ』――英語で書かれた大長編小説――や中国の古典『紅楼夢』などにも適用してみたという。

また、ウェブログのサイトを探索するウェブ・クローラーBlog Censusプロジェクトにも試験実装された。この実験は談話分析プロジェクトとして引き継がれ、数千人の政治評論家やブロガーの書き込みを索引付けしキーワードの図式化と分析を行っている。