オブジェクト・ストレージの新規需要
その様々なユースケースとは?
Storage Magazine 2020年8月号より
Kurt Marko
演算機能とストレージの進化によって、オブジェクト・ストレージの用途は、これまでのハイパフォーマンス コンピューティング (HPC)やクラウドを超えて、新興のデータ分析、機械学習、ディープラーニングへと広がってきた。
オブジェクト・ストレージは、三大プライマリ・ストレージ技術のなかで最も新しく、先行するブロックボリュームおよびファイルシステム技術を補完するものだ。技術の進化に伴って、オブジェクト・ストレージは、当初の強みを超えて、これまでと違う新しいユースケースによる居場所を見つけた。
1990年代、 HPCの研究者が自分たちの巨大なデータセット用に、より拡張性が高い代替ストレージを探したことに始まり、オブジェクト・ベースのストレージは、大規模拡張が可能なクラウドサービスの興隆とともに広まってきた。Google File System (GFS)における最も初期のオブジェクト・ストレージの実装を設計したGoogleの研究者たちは、その動機を説明のなかで、設計要件を詳述している。そこには、20年を経た今でも共感するものがある。
すなわち、オブジェクト・ストレージシステムとは、以下のことをすべきものである。
- 常時監視、エラー検知、フォールト・トレランス、自動復旧を使って、数百台、数千台のノードを必要とするストレージシステムの、頻繁なコンポーネント障害に対応する
- 巨大なマルチテラバイトのデータセットやマルチギガバイトのファイルに適応する
- ほとんどがリードオンリー、シーケンシャル・リードのファイルに最適化され、「事実上存在しない」ランダム・ライト機能を持ち、新規データは既存データに上書きせず、ファイルを追加する
エンジニアは、オンライン・サービスプロバイダー向けに、GFSのような初期型のオブジェクト・ストレージを最適化した。しかし時が経ち、エンタープライズ・ワークロードのストレージ要件が、これと同じような性格を持つようになってきた。
オブジェクト・ストレージの新たな一面
企業がクラウド基盤やクラウド・ネイティブのアプリケーション設計を採用しつつあるだけでなく、下記の傾向は企業におけるデータ・フットプリントがオブジェクト・ストレージに有利になるように進化していることを示している。
- テキスト、画像、音声、動画などの非構造型データ量のすさまじい増加
- システムログ、emailリポジトリ、HTMLやJSON (JavaScript Object Notation)ドキュメントなどの半構造化データ量の、上記と同様なすさまじい増加
- 数百テラバイトからペタバイトにまで及ぶ膨大なデータ・リポジトリの蓄積
- 複数のロケーションにいる数百ユーザーから同時並行的に来るストレージ・アクセス
- 異なるフォーマットの様々な情報源から集めたデータである、データレイクやその他の技術の利用増加
- データ・リポジトリを多くのワークロードで利用するため、データを特定のアプリケーションから切り離す
これらエンタープライズのストレージ・トレンドのどの項目においても、ブロック・ストレージやファイル・ストレージよりもオブジェクト・ストレージの方が有利である。オブジェクト・ストレージは、本来的に拡張性があり、高度に分散され、(スペースとコストの両面において)効率が良く、リポジトリのサブセットへのアクセス制御にも粒度をもったセキュリティ・ポリシーを設定することができる。さらに、AWS、Azure、Google Cloud Platform (GCP)やその他のIaaSリソース(そこでは、オブジェクト・ストレージのサービスが、最も拡張性が高く、低コストなオプションである)の利用増加に伴って、統合・ハイブリッドのクラウド環境の一部にオンプレミスのオブジェクト・ストレージの使用が増えてきている。
変化を促す理由
並外れた拡張性と本来的に分散型で且つ冗長性を持ったシステムであることが、HPCとクラウドの研究者がオブジェクト・ストレージを採用した理由だった。しかし、企業のユーザーやクラウドサービスが注目した理由は、ファイル・ストレージやブロック・ストレージに対するオブジェクト・ストレージ技術のコストの優位性であり、特にAWS S3はオブジェクト・ストレージに入門する格好のサービスとなった。
これまでの10年間、企業がクラウドサービスに手を出すときは、低リスクで且つ実装が容易なユースケースを求めた。バックアップとアーカイブがその答えであり、クラウド・オブジェクト・ストレージがそれを入れる器となった。こうしてバックアップとアーカイブは、オブジェクト・ストレージの最も典型的なユースケースとなったが、今後も長期にわたって、オブジェクト・ストレージ用の主要なエンタープライズ・アプリケーションであり続けるだろう。
オブジェクト・ストレージ市場
オブジェクト・ストレージ市場の規模を調べるために、公的に利用できる手段というものは存在しない。ある推定では、今年(2020年)の売上は小規模なままで約40億ドル、毎年14%ずつ伸びて、2023年には売上60億ドルとなる。EMCが10年前の2010年にIsilonとAtmosを買収した時、2年後の2012年までには、その2製品で売上10億ドルになるだろうと予測したことを思えば、前述の60億ドルという数字はあまりにも小さく見えるだろう。いずれにせよ、エンタープライズ・オブジェクト・ストレージは、ブロック・ストレージやファイル・ストレージ製品に比べてはるかに小さな市場にとどまっているのは、疑いの余地がない。
クラウドプロバイダーの大手三社、AWS、Azure、GCPはコンピュート・インスタンスやオブジェクト・ストレージのようなコモディティ・サービスに関して、時折価格戦争をしている。オブジェクト・ストレージ・ベンダーにとって、クラウドのスケールメリットに対抗してギガバイト単位の競争をするのは難しいため、彼らはマーケティングの入門書のあるページをお手本にしている。「価格で勝負できないときは、機能とパフォーマンスにフォーカスせよ。」
小さな会社がAmazonやGoogleと価格競争をしても勝ち目がないのが分かっているので、オブジェクト・ストレージに特化しているほとんどの会社は、高速のI/Oや新規の組み込み機能が活かせるAI、機械学習、ビッグデータ分析へとフォーカスを移している。実際、オブジェクト・ストレージという言葉には、安売り商品というイメージが付いてしまったので、データ・プラットフォーム、ユニバーサル・ストレージ、分散データ管理などを強調すべく用語の入れ替えを行っている。
とはいうものの、これらのベンダーもクラウド・オブジェクト・ストレージサービス(特にS3)がITおよび開発者の間で圧倒的に優位である、ということは認めざるを得ない。その結果、S3 APIとの互換性は企業がその上にデータ分析機能を加える際の標準機能となっている。
オブジェクト・ストレージの最新ユースケース:開発、分析、AI
現在のオブジェクト・ストレージ・プラットフォームは、新たに登場した以下のユースケース向けに設計されている。
- ストリーミング・データ用データレイク:システム・イベントとログ、アプリケーション・テレメトリ、センサー・リーディング、金融トランザクション、オンライン・インタラクション、ソーシャルメディア・アクティビティ、その他のメタデータ
- メタデータ、非構造型コンテンツ、巨大バイナリ・オブジェクト用オブジェクト・ストレージデータベース
- Spark、Flink、Hiveやこれらの商用版製品などのソフトウェアを使った、ビッグデータ分析用ストレージ
- 機械学習、ディープラーニングのトレーニングデータや前回トレーニングした型を使った分析用入力ストリーム
- 検索エンジン・リポジトリ
- リッチメディア・ストリーミング
- コンテナ・ベースおよびクラウド・ネイティブアプリケーション用永続データストア
- ソフトウェア開発環境用リポジトリ:ソースコード管理、継続的インテグレーション、継続的デリバリ―・パイプライン、課題追跡およびドキュメント化を含む
多くの開発ツールが、ネットワーク・マウント型のファイル共有を使うので、オブジェクト・ストレージはNFSやSMBプロトコル経由でもアクセスできるようになっている。
これらの変化を可能にした技術の進歩
オブジェクト・ストレージは、広範な演算機能とストレージの最新技術を活用している。以下は、最も重要な最新技術である。
- ハードウェア実装とアプリケーションの間に抽象化レイヤーを置く、OS(VMインスタンス)、アプリケーション(コンテナ)、ストレージ・リソース(ソフトウェア定義のストレージ)のソフトウェア仮想化。ストレージ・データとコントロールプレーンを分離することにより、どんな規模と容量の分散型スケールアウト・クラスターでも仮想化が可能になった
- 汎用CPUの計算能力の著しい増大を仮想化と組み合わせることにより、コモディティ・サーバーのクラスターで巨大なストレージ容量の管理が可能になった
- SATA SSDとNVMeドライブのバイト単価の継続的低下により、大容量と高スループットの両方を組み合わせた大容量オブジェクト・ストレージが誕生した
- Optane(IntelとMicron Technologyが製造)や磁気抵抗RAM(Magnetoresistive RAM:Everspin TechnologiesやAvalanche Technologyが製造)などの永続メモリ技術の商用化によって、磁気ディスクや3D NANDフラッシュを使った高密度だが比較的低速なストレージと、高速で低レイテンシだが揮発性のDRAMキャッシュの間のギャップを埋めることができた
大部分のオブジェクト・ストレージ製品は上記の技術的進化を、全てではないにしても、いくつか取り入れている。とはいえ、これらの製品は一般的にコアとなるストレージ制御のソフトウェアを、旧いHDDベースの製品から受け継いで進化させている。このようなソフトウェア・レガシーは、ランダムとシーケンシャルのリードとライトが混ざり、しかも低レイテンシと高スループットを要求するAI、機械学習、分析のワークロードに対して、中途半端な最適化しか提供できない。
現在の実装の欠点に対応するために、Intelおよびその他の企業が、Distributed Asynchronous Object Storage(DAOS:分散型非同期オブジェクト・ストレージ)と呼ばれる新しいソフトウェア・プラットフォームを開発した。DAOSは、データとコントロールプレーンを切り離しつつ、バルクデータ・ストレージからI/Oメタデータとインデクシング・ワークロードの分離も行うオープンソースの取り組みである。
DAOSは、NVMeとOptane永続ストレージ用に設計された軽量のプロトコルを実装し、OSを迂回する低レイテンシ、高スループットのメッセージング・インターフェースを持っている。メタデータは高速な永続メモリに、バルクデータはNVMe SSDに保存され、HDF5(Hierarchical Data Format version 5)、Apache Arrow、Sparkなどのビッグデータ・インターフェースのサポート機能も組み込まれている。
Intelによれば、DAOSのリードおよびライトのI/Oパフォーマンスは、クライアントのI/Oリクエスト(約32から64リモート・クライアント)に比例して直線的に増大するため、クラウドやその他の共有環境に適しているという。DAOSの最初の重要な製品デプロイメントは、米国エネルギー省アルゴンヌ国立研究所のエクサスケール(訳注:1秒間に10の18乗回の演算ができる)スーパーコンピューター、オーロラのためのものである。
最先端の技術の中でも特に、小型で電力効率の良いプロセッサーを組み込み、個々にSSDを内蔵したコンピュテーショナル・ストレージは、やがてオブジェクト・ストレージの設計に新たな世界を切り開くことだろう。このストレージが本来持っているスケールアウト性は、数百台のデバイスをつないだ分散ストレージ・プロセッシングには理想的な適性を持っているからだ。
特定のベンダーと製品が全てを可能にしてくれる
以下に、全てではないがオブジェクト・ストレージ市場の主要なベンダーを挙げる。
- Caringo Swarm ソフトウェアおよびサーバー
Swarmはソフトウェア定義のオブジェクト・プラットフォーム。異機種混在環境をサポートし、NFS、SMB、AWS S3経由でアクセス可能な統一名前空間とSwarmネイティブのHTTP APIを提供する。 - Cloudian HyperStoreオブジェクト・ストレージ
S3互換APIおよびNFS、SMB NAS両方のインターフェースを持ち、ハードウェア・ソフトウェアのプラットフォームを統合した3つの製品で使うことができる。製品は、HDDを内蔵した1U/168TBから4U/1.5PBまでのレンジを持つ。 - DataDirect Networks Web Object Scaler
S3互換のオブジェクト・ストレージで、ペタバイトの容量と兆単位のオブジェクトを保存する拡張性を持つ。 - Dell EMC ECS
以前は、Elastic Cloud Storageの名で知られていた。統合ハードウェア・アプライアンスで3つのサイズがあり、HDDで1TB、8TB 12台から12TB 90台までのレンジがある。 - Hitachi Vantara Content Intelligence
日立のオブジェクト・ストレージを補完する特筆すべき製品。データ処理ワークフローと分析 / 抽出 / 変換用ライブラリ、およびユーザーが入力データに適用できるレポート機能を提供する。変換および抽出されたデータは、次にアプリケーションに渡されるか、長期保存のためにストレージティアに送られる。 - IBM Red Hat Ceph Storage
S3とOpenStackオブジェクトAPI、およびブロック・プロトコル(iSCSI)とNFSファイルプロトコルをサポートするストレージ・プラットフォーム。 - MinIO
オープンソース。Kubernetesクラスター上で稼働するS3 APIをサポートするクラウドに最適化されたオブジェクト・ソフトウェア。MinIOは、Hadoop分散ファイルシステム(HDFS)と入れ替わることができ、Spark、Presto、TensorFlow、H2O.aiなどの分析およびAIワークロード用に設計されている。 - NetApp StorageGrid
同社のS3互換オブジェクト製品。とはいえ、同社はNetApp Ontap AIプラットフォームでNvidiaとも提携しており、AFF Aシリーズ オールフラッシュアレイ (AFA) ストレージシステム(Ontap 9搭載)とAI Control PlaneをNvidiaの新製品DGX A100 AIサーバーと統合している。 - Pure Storage FlashBlade AFA
オブジェクト・ストレージソフトウェアと15個のホットプラグ可能なモジュールを内蔵した拡張可能な4U筺体を提供している。PureもNvidiaと提携しており、1つまたは2つのFlashBladeおよびEthernet-InfiniBandコンバージド・ファブリックと、2台以上のDGX-1またはDGX-2計算サーバーを、統合するAIRI AIプラットフォームを販売している。 - Qumulo ファイルシステム
Qumuloストレージ・アプライアンス、HPE、富士通の認証済みサードパーティ製品、あるいは、AWSかGCP上のパブリッククラウド基盤上でのマルチクラウド・デプロイメントをサポートしている。 - Scality Ring
x86サーバー用ペタバイト規模のソフトウェア・ストレージ・コントロールプレーンでS3オブジェクトとファイルインターフェースの両方を提供する。ベンダーのZenkoソフトウェアは、RingやS3、Azure Blob、GCP、Cephなど、その他のオブジェクト・プラットフォーム用に、シングル・マネジメントインターフェースを提供している。 - SwiftStack
最近Nvidiaに買収されたオブジェクト・ストレージソフトウェア。検索と分析を容易にするためにデータを前処理する際のメタデータ、ラベル、タグの付加などを行うSwiftStackポリシー・ベースのワークフローをサポートする。SwiftStackの1spaceマネジメント・ソフトウェアは、複数のクラウドをサポートし、1space File Connectorは異機種混在環境にまたがる統一名前空間を提供する。 - Vast Data
自らのスケールアウト・ストレージ環境をユニバーサル・ストレージと呼ぶ。
・ソフトウェアのみ
・ハードウェアとコンテナ・ソフトウェアのハイブリッド
・パッケージのハードウェア・アプライアンス
のいずれかの形で入手可能。Vastの高I/OパフォーマンスとNASのサポートは、機械学習とディープラーニングのワークロードに適している。
評価基準
オブジェクト・ストレージ製品を評価する時、購入者は重要な要素を複数個検討しなければならない。ある領域での強みが、他の領域の犠牲の上に成り立っていることがあるからだ。
次のような要素比較は、上記の検討の際の参考になるだろう。
- 容量・ストレージ効率 vs. パフォーマンス
- 復元力・冗長性 vs. 容量
- 相互運用性 vs. 独自機能(製品に組み込まれたAIや分析機能など)
以下も重要である。
- 管理性 vs. 利便性
- セキュリティ vs. マルチテナントの柔軟性
AFA(オールフラッシュ・アレイ)やハイブリッドHDD/SSDハードウェアに最適化したオブジェクト・ストレージソフトウェアの進化は、パフォーマンスを大幅に改善した。一方、コントロールプレーンとデータプレーンの分離によって、複数のクラウド環境をまたいで異機種が混在したデプロイメントができるようになった。これらの進化が組み合わさり、分散型スケールアウトのオブジェクト・システムを、新興のデータ分析、機械学習、ディープラーニングのワークロード用ストレージ環境の最有力候補へと押し上げた。
DAOS、永続メモリサポート、統合データ処理ワークフローは、将来のオブジェクト・ストレージのために出てくる新たなユースケースに、より優れたパフォーマンスと柔軟性を与えるだろう。オブジェクト・ストレージの動きから目が離せない。
著者略歴:Kurt Marko は、MarkoInsights社のアナリスト兼コンサルタント
Copyright 2000 - 2020, TechTarget. All Rights Reserved, *この翻訳記事の翻訳著作権は JDSF が所有しています。
このページに掲載されている記事・写真・図表などの無断転載を禁じます。