分散データストリーム向けプラットフォーム「Apache Flink 0.10」リリース

 Apache Flink開発チームは11月16日、分散ストリームとバッチデータ処理向けプラットフォーム「Apache Flink 0.10.0」をリリースした。

 Apache Flinkは分散ストリームとバッチデータ処理のためのオープンソースのプラットフォーム。データのディストリビューションと通信、分散コンピュータ上のデータストリームのフォールトトレランスといった機能を持つストリーミングデータフローエンジンを中核とし、DataSet API、DataStream API、Table APIなどのAPIを備える。0.9では機械学習ライブラリとグラフ処理APIとライブラリの「Gelly」も導入した。

 0.10は、6月に公開された0.9に続くリリース。Apache Flinkを実運用環境で利用できるよう、データストリーム処理とオペレーション関連の機能にフォーカスした。約80人の開発者が参加し、合計で400以上のJIRAチケットを解決したとしている。

 本バージョンでの新機能としては、イベントのタイムスタンプに対応するEvent-time Stream Processingや、演算子のステートの定義、更新、クエリのためのインターフェイスを提供するStageful Stream Processingなどがある。

 また、長期にわたって利用されるストリーム処理アプリケーションのため、スタンダロンのクラスタとYARN設定向けに高可用性モードをサポートした。Apache Zookeeperを利用するもので、単一障害ポイントの発生を防ぐことを目指す。

 DataStream APIはベータ段階から脱し正式サポート扱いとなった。ストリームパーティショニングとウィンドウオペレーションのためのメソッドを中心に変更が加わっている。

 データストリーム向けのコネクタも加わり、HDFS、Amazon S3などのファイルシステム向けの一度きりのローリングファイルSinkをサポートした。Apache Kafka対応も強化し、新しいプロデューサーAPIが加わり、ElasticSearchやApache Nifi向けのコネクタが加わった。

 モニタリングダッシュボードも強化し、動作中のジョブの経過を視覚的に表示したり、処理されたデータボリュームの状態をリアルタイムで表示可能となった、リソースの利用やJVMに関するデータにもアクセスできる。

 このほか、Gellyの強化とScala APIの導入、DataSet APIでの外部結合の導入など多数の機能が加わっている。

Apache Flink
https://flink.apache.org/