スペースベースアーキテクチャが解決する課題
スペースベースアーキテクチャの概要
スペースベースアーキテクチャの構成要素
スペースベースアーキテクチャの処理ユニット
- アプリケーションコード
- インメモリデータグリッドとレプリケーションエンジン
仮想ミドルウェア
データポンプ

スペースベースアーキテクチャが解決する課題

ほとんどのWebアプリケーションは、次のような一般的なリクエストフローに従っている。

ブラウザからの要求は、Webサーバー、アプリケーションサーバーを経て、最後にデータベースサーバーに処理が移る。

このパターンは少数のユーザーには最適ですが、ユーザーの負荷が増えると、Webサーバー層、次にアプリケーションサーバー層、最後にデータベースサーバー層でボトルネックが発生し始めます。

ユーザー負荷の増加に基づくボトルネックへの通常の対応は、Webサーバーをスケールアウトすることです。

これは比較的簡単で安価であり、ボトルネックの問題に対処するために機能する場合がありますが、ボトルネックがアプリケーションサーバーに移動します。

そうしてアプリケーションサーバーの負荷をどうにかして減らせたとしても、最終的にはデータベースに負荷が移動するだけで根本的な解決にはなりません。

https://www.ulsystems.co.jp/archives/022.html

DBは業務に必要な情報を集約的に保持していることに価値があります。

逆に、DBにデータを分散して保持させることは困難だとも言えます。



もちろん、現在リリースされているRDBMS製品は、パーティションやレプリケーションといったデータを物理的に分散させる機能を提供しています。

しかし、DBの利用者から見ると、論理的には一元管理されているものとしてデータにアクセスしたいものです。

例えば、「顧客マスタ」データが物理的にはマシンAとマシンBに分散配置されているとしても、

「顧客マスタ」を扱うプログラムはマシンAとマシンB両方のデータを透過的に扱いたいはずです。

この問題を解消するのがスペースベースアーキテクチャです。

スペースベースアーキテクチャには、高いスケーラビリティと弾力性、並列処理といった問題に対応できる特性を持ちます。

特に、同時アクセス数ユーザーが予測できない場合に有効です。

スペースベースアーキテクチャの概要

スペースベースアーキテクチャの特徴は、アプリの標準的なトランザクションに中央のデータベースが関与しないことです。

これにより、データベースのトランザクションというボトルネックが解消されアプリケーションのスケーラビリティは無限になります。

中央のデータベースとの連携ではなく、各処理ユニットがメモリ内部にデータを持つのです。

そして、メモリ内部のデータが更新されると、更新情報が非同期的に他の処理ユニットに送られ、結果的に複製されます。

これらのメモリ内部でのデータ共有の技術をタプルスペースと呼ぶのです。

スペースベースのアーキテクチャのスペースとは、タプルスペースに由来します。

中央データベースをシステムの同期制約として削除し、代わりに複製されたメモリ内データグリッドを活用することで、高いスケーラビリティ、高い弾力性、および高いパフォーマンスが実現されます。

ユニット処理装置は、ユーザーの負荷が増減するにつれて動的に起動およびシャットダウンするため、スケーラビリティーが確保されるのです。

スペースベースアーキテクチャの構成要素

処理ユニット(Processing Unit)

アプリケーションコード、メモリ内部のデータグリッド、データ複製エンジンを含む。

データリーダー(DataReader),データライター(DataWriter)

非同期方式で処理ユニットのデータを受け取り、中央のデータベースにメッセージを送る

仮想ミドルウェア(Virtualized Middleware)

処理ユニットの管理・調節に使用される

スペースベースアーキテクチャの処理ユニット

アプリケーションコード

ここには通常、webフレームワークなどのバックエンドのビジネスロジックが含まれており、ある種一つのアプリケーションが完成している。

また大規模なアプリケーションでは、以下のように処理ユニットが複数種類に分割される可能性がある。

例えば、個人情報の漏出ニュースが流れ会員ページへのアクセスが集中する場合は、Profile Process Unitを複製することでバーストに耐えることができる。

インメモリデータグリッドとレプリケーションエンジン

処理ユニットには通常、インメモリデータグリッドとレプリケーションエンジンも含まれる。

これらの製品を通じて実装されるものである。

https://www.gridgain.com/resources/blog/using-gridgainr-kafkar-connector

サンプルコード

Hazelcastを使ったJavaコードによる実装は以下の通り

HazelcastInstance hz = Haxzelcast.newHazelcastInstance();

Map<String, CustomerProfile> profileCache = 

    hz.getReplicatedMap("CustomerProfile")

顧客情報へのアクセスを必要とするすべての処理ユニットには、このようなコードが含まれる。

いずれの処理ユニットからCustomerProfileというキャッシュへの変更は、Hazelcastの本体を通じて複製される。

複製されたキャッシュが一つでも存在していれば、あたらしいインスタンスを立ち上げたときでもデータベースからの読み込みを必要とせず、結果的に処理が早くなるということだ。

Hazelcastの仕組みについて

処理ユニットが一つだけの場合、Hazelcast本体のログは次のようになる

Members {size:1, ver:1} [

    Member [172.19.248.89]:5701 - 04a6f863-dfce-41e5-9d51-9f4e356ef268 this

]

ここでは、以下の点に注目してほしい

インスタンス(Member)は一種類のみであり、起動しているすべてのインスタンスの情報を保持すること
インスタンスにはIPアドレス、port番号、idといった情報が含まれるということ

ここからインスタンスが複数に増えるとき、ログは次のように変化する。

Instance 1:

Members {size:2, ver:2} [

    Member [172.19.248.89]:5701 - 04a6f863-dfce-41e5-9d51-9f4e356ef268 this

    Member [172.19.248.90]:5702 - ea9e4dd5-5cb3-4b27-8fe8-db5cc62c7316

]

Instance 2:

Members {size:2, ver:2} [

    Member [172.19.248.89]:5701 - 04a6f863-dfce-41e5-9d51-9f4e356ef268

    Member [172.19.248.90]:5702 - ea9e4dd5-5cb3-4b27-8fe8-db5cc62c7316 this

]

このログから、あるインスタンスがほかのインスタンスの情報を完璧に保持していることが把握できるだろう。

これらのインスタンスは常に非同期通信で繋がっており、あるインスタンスのmethodで、cache.put()のようなキャッシュ更新methodを使用すると、Hazelcastはその更新をほかのインスタンスへ通知するのだ。