米LinkedInが分散型のデータ変更通知フレームワーク「Databus」をオープンソースで公開

 ビジネス向けSNSを提供する米LinkedInが、社内開発した更新通知のためのフレームワーク「Databus」をオープンソースで公開した。ほぼリアルタイムでデータベースの変更をキャプチャできるという。

 Databusは分散型のデータ変更キャプチャシステム。同社のデータ処理パイプラインの一部として開発された。データソースに依存せず、タイムラインと一貫性を保ちながら新しいレコードの追加、変更、削除といった情報が含まれるデータを提供するという。遅延の少ない伝送レイヤを持ち、ほぼリアルタイムで変更に関する情報を取得、処理できるのが特徴。

 変更を監視するデータベースコネクタ、最近の変更を効率的に取得するためのインメモリ・リレー、スナップショットを格納しクエリをかけられるブートストラップサービス、シンプルなAPIを利用して変更を取得するクライアントといったコンポーネントで構成される。データベースコネクタはOracleコネクタを用意しており、MySQLコネクタも公開予定という。

 LinkedInによると、Databusはデータベースのログマイニングなどに適しているという。LinkedInではメンバーのプロフィール、コネクションなどさまざまなデータベースで利用しており、メンバーが加えた変更をプロフィールや検索インデックスに加える、といった作業を担っているという。

 DatabusはGitHubのプロジェクトページから入手可能。ライセンスはApache Lincense 2.0。また、ビルドにはGradle 1.0が必要。

Databus
https://github.com/linkedin/databus

米LinkedIn
http://www.linkedin.com/