メールマガジン掲載記事

バックアップアプリの主要新機能

著者W. Curtis Preston
Storage Magazine 2010年3月号より


バックアップアプリケーションはここ数年で進化し、かつてはサードパーティ製品にしかなかった機能を組み込んできている。

新しいバックアップ技術は、あらゆるユーザに採用されつつあり、もはや先取りユーザだけのものではない。先取りユーザが新しい技術の活性化に貢献してきたのは、新しいベンダの製品を購入するのに違和感がなく、新しいものを試す初めてのユーザになることに躊躇しなかったからである。しかし、先駆者となる新しいベンダは、典型的に小規模なチームであって、持っている見込みユーザは静観してしまうことがはるかに多い。よって、最新製品に技術的に優れたものがあっても、それらがバックアップ市場全体に影響を及ぼすことはほとんどない。

しかし、最近のいくつかの動きによって、一部のバックアップ技術の導入が進み、またそれらの成熟度が明らかになった。小規模ベンダが大規模ベンダに買収され、またそれぞれの製品を吸収しやすい技術が可能となってきた。

この記事では、以下の5つのバックアップ技術の進歩について解説する。

データ重複排除
データ保護管理
継続的データ保護
合成バックアップ
[コラム] バックアップをアーカイブとすることは可能か
仮想サーバのバックアップ  

以下では、この5つの技術がどのようにバックアップの仕組みを変えたか、そしてこの新しいバックアップ技術をバックアップソフトウェアベンダ主要4社(CommVault Systems Inc.、EMC Corp.、IBM Corp.、およびSymantec Corp.)がどのように吸収したかを説明する。 他のバックアップベンダが、このような機能を提供していないということではないが、上記4社は特にバックアップソフトウェア市場をリードするベンダとして認知されており、同4社の製品については読者からの問い合わせが特に多いため、この4社を取り上げた。


データ重複排除:ディスクバックアップを変える画期的な技術

今日のバックアップシステムにおいて、データ重複排除の重要性はいくら強調しても、し過ぎることはほとんどないだろう。データ重複排除はおそらく、15年前にネットワークバックアップシステムが紹介されて以来の画期的な技術であり、その人気はいくつかの要素に結びついている。まず、データ重複排除技術を使用すると、バックアップシステムのディスクの使用率を向上できる。長い間テープは、バックアップデータの格納先としてディスクに比べ大幅に安価なものだった。 過去数年でディスクのコストは大幅に低下したものの、テープのコストも低下した。よってディスクは、長期的なバックアップまたはアーカイブのためのストレージというよりも、単にテープに移行するまでの段階的な方法として使用されてきた。

この状況が、データ重複排除技術の出現によって完全に変わった。ディスクのランダムアクセス機能によって、データ重複排除システムではデータの重複セグメントを取りのぞき、これらをポインタに置き換えることで、リストアのパフォーマンスに多大な影響を及ぼさないようにしている。(ある程度のパフォーマンスの低下は生じるが、それでもテープを使用する場合に比べてリストアは格段に速くなる。)

データ重複排除にはまぎれもなくメリットがあるが、多くのユーザは、やがてターゲット重複排除デバイスの機能がバックアップソフトウェアに取り込まれることで、この専用アプライアンスが不要になってしまうまで、様子を見ることにした。大半の専門家は、ターゲット重複排除アプライアンスがもはや不要であるとは考えていないが、データ重複排除技術は確かに、主流のバックアップソフトウェア製品に取り込まれた。

EMCとSymantecは、いずれも買収を通じて、主要バックアップソフトウェア企業の中でいち早くデータ重複排除技術を自社製品ラインに組み込んだ。EMCはAvamar Technologiesを買収し、SymantecはDatacenter Technologiesの買収を通じて現在のPureDisk製品ラインを手に入れた。CommVaultとIBMは、データ重複排除製品を「自前で用意する」ことを選択した。

EMCとSymantecはいずれも、ソース型重複排除製品を提供している。ソース型重複排除とは、AvamarまたはPureDiskエージェントをクライアントマシンにインストールすれば、クライアントがバックアップサーバと通信して、重複データがネットワーク経由で転送される前にこれを特定して排除する、というものだ。毎回のバックアップ時に新しいデータのみが送信されることから、ソース型重複排除は小規模なリモートオフィスやモバイルデータに最適な方式といえる。

2社ともソース型重複排除製品をスタンドアロン製品として提供している。つまり必ずしもSymantecのNetBackupやEMCのNetWorkerを購入する必要はない。よって、SymantecまたはEMCのバックアップアプリを使っていなくても、各社の重複排除技術を利用できた。ただし、バックアップアプリと重複排除両方の機能が必要な場合は、2つの製品(つまりNetBackupとPureDisk、またはNetWorkerとAvamar)を購入し管理する必要があった。Symantecが先に、NetBackup 7でこの状況を変えた。

NetBackup 7には、ソース型重複排除機能が内蔵されており、別途PureDiskをインストールする必要がない。AvamarはNetWorker経由で管理ができ、同社のクライアントソフトウェアを1つインストールすればNetWorkerとAvamarのバックアップ両方に対応できるが、Avamarにはまだ別途バックアップ先のサーバが必要だ。

バックアップソフトウェアベンダからはターゲット型重複排除技術も提供されている。これを最初に実現したのはSymantecで、NetBackupユーザが標準的なNetBackupバックアップデータをメディアサーバに送信し、メディアサーバ上でPureDiskによる重複排除処理が実行できるようになった。(NetBackup 7では、この機能は別途PureDiskをインストールしなくとも利用可能となっている。)

IBMは、Tivoli Storage Manager(TSM)6.1にポストプロセスターゲット型重複排除機能を導入することでこの分野に参入した。TSMは、バックアップ完了後にディスクに格納したバックアップデータの重複排除処理を、ネイティブで実行できる。IBMのターゲット型重複排除製品は、基本製品に含まれているという点では独自性があるが、達成される重複排除率は、他の製品の有償オプションに比べると比較的低くなる可能性がある。

CommVaultの重複排除機能Simpanaは、ターゲット型かソース型かという分類が難しい。バックアップソフトウェアでの重複排除には次のような複数の手順が必要だ。(1)バックアップ対象ファイルをセグメント、いわゆる「チャンク」に分割する、(2)「ハッシュ」値を生成する(通常SHA-1を使う)、(3)ハッシュテーブル照合を実行して値が一意であるかどうかを確認する、そして(4)チャンクをストレージに送信するかどうかを決定する。ソース型重複排除製品では、4つの手順すべてをクライアント上で実行する。ターゲット型重複排除アプライアンスでは、4つの手順すべてがターゲットつまりバックアップサーバ上で実行する。しかしCommVaultのアプローチでは、手順1と2はクライアント上で実行し、手順3と4はバックアップサーバ(CommVault用語でいうと「メディアエージェント」)上で実行する。この重複排除技術をソース型またはターゲット型に分類することが難しいのはそのためだ。

しかし、2つのカテゴリの本当の意味で区別が、元のネイティブデータをそのままでクライアントから送信するかどうかであれば、CommVaultのSimpanaはターゲット型重複排除に分類するのが最適だろう。とはいえSimpanaでは、最初の2つの手順をクライアント上で実行するという独自の方法により、他のターゲット型製品ではできないクライアント側での圧縮処理ができる。大半のターゲット型重複排除システムでは、ターゲットにデータを送信する前にクライアントで圧縮してしまうと、データの重複排除処理が十分に行われない。重複排除システムが重複データを特定するために、適切にデータをチャンクに分割してフィンガープリントを付与することが、圧縮によってできなくなるためだ。しかしSimpanaでは、データのチャンク分割とフィンガープリント付与がクライアント上で行われるため、データをネットワーク経由で送信する前に圧縮しても悪影響はない。このような圧縮は、ソース型重複排除ほどには帯域幅を節約できないが、環境によっては有効だ。

データ保護管理:単なるバックアップレポートからの脱却

データ保護管理(DPM)は、Bocada Inc.によって数年前に紹介された。Bocadaは、複数のバックアップ製品に関するレポートを標準化しようとした最初の会社だ。すぐにAptare Inc.、Tek-Tools Software Inc.(先日SolarWinds, Inc.が買収)、TSMworks Inc.、Servergraph(現在はRocket Software Inc.の傘下)、WysDM Software(現在EMCの傘下)といった他の新しいベンダも競争に参戦した。大手バックアップソフトウェアベンダもDPM市場に可能性を見出した。SymantecはAdvanced Reporterという製品に着目し、これはその後Veritas Backup Reporterとなり、さらにその後SymantecのOpsCenter Analyticsラインとなった。EMCはWysDM製品をData Protection Advisorとした。

これらの製品のすべてには、単にバックアップの成否をユーザに知らせる機能だけでなく、他にも多くの機能があるものの、それらの機能はそれ相応のバックアップソフトウェアであれば付いているだろうと多くの人が考えるものだ。しかし、傾向、キャパシティプランニング、製品を跨いだレポート、および従来のバックアップの範囲を超える事柄については、スタンドアロンDPM製品は独自のニッチな領域を開拓したといえる。

バックアップアプリにも、そういった機能がいくつか組み込まれるようになった。特にCommVaultは、そのようなレポート作成ツールがどのようにベースのバックアップ製品に組み込まれるべきかについて積極的に自説を主張してきた。Simpanaに含まれているレポート作成機能は、他社のベース製品のレポート作成機能よりもいくつかの点で優れているといえるかもしれないが、Simpanaユーザが別のDPM製品を使用することにメリットがないというわけではない。TSMユーザについては、IBMはユーザが知る必要があることはすべてTSMデータベースに入っており、ユーザはクエリを実行するだけで良い、という返答を常日頃してきた。確かにそのとおりだが、多くのユーザにとっては手間のかかることかもしれない。そのため、数社の大手バックアップベンダがいくつかのDPM機能を組み込んではいるものの、本格的なデータ保護管理機能を必要とするユーザは、サードパーティ製品を利用する可能性が高いだろう。

継続的データ保護:未だ健在

わずか数年前までは、継続的データ保護(CDP)アプリケーションを提供するベンダがいくつもあったが、もはやそれらの多くが存在しない。撤退したところもあれば、破格値で買収されたところもある。CDPは単にうまくいかなかったのだろうか。アイデアが良くなかったのだろうか、それともバックアップ製品の「スタートレック」だった(つまり優れたアイデアだが時代に先行し過ぎた)のだろうか。

CDPの浮き沈みの原因はおそらく、それらの要因のすべてが組み合わさったものだろう。CDPが宣伝どおりに機能すれば、バックアップによるダウンタイムはゼロ、復旧時間目標(RTO)も復旧時点目標(RPO)もゼロとなり、重要なアプリケーションを保護する方法としてふさわしいものだと言えるだろう。では何が問題なのだろうか。あいにく、ストレージ管理者はミッションクリティカルなアプリケーションに対しては、特にリスクを嫌う傾向があるため、それまで聞いたことがないベンダのまったく異なる方法で、ミッションクリティカルアプリケーションをバックアップすることを選択するユーザはほとんどいなかった。

しかし、大手企業がこの分野に参入すると、CDPに対する人々の態度は変わった。SymantecはRevivioを買収し、最終的にNetBackup RealTimeをリリースした。IBMはTivoli Continuous Data Protection for Filesを発表し、FilesXを買収してこれがその後TSM FastBackとなった。EMCはKashyaを買収してRecoverPointを発表した。CommVaultは、同社の中核的なCommon Technology Engineを中心として独自のCDP機能を開発した。このように主要ベンダがCDP分野に参入した結果、ユーザはCDPベンダが明日にも撤退するのではないかという心配をすることなく、自社環境でCDPを試すことができるようになった。

合成バックアップ:フルバックアップはもう要らない

その昔、TSMの開発者たちはある素朴な疑問を抱いた。「変更されていないデータをなぜバックアップするのか」という疑問だ。これが発展してTSM設計のコア要素の1つとなり、やがてTSMで最終的に「段階的増分」と呼ばれるもの、他の製品で「永久増分」と呼ばれるものになった。特定のバージョンのファイルが1度バックアップされたら、以後同じものがバックアップされることはない、という方式だ。

他にバックアップについて、従来のフル/増分アプローチ(3世代方式とも呼ばれる)を 取り入れたバックアップ製品もあった。しかし「変更されていないデータをなぜバックアップするのか」という疑問は解消されなかった。最終的に、CommVault、EMC、およびSymantecがいずれも同じ結論に達した。その結論とは、すでにバックアップされたデータをネットワーク経由で転送する代わりに、バックアップサーバ内でテープからテープに転送するだけ、というものだ。どのフルバックアップでも、その90%がすでにどこかのテープまたはディスクに格納されているため、最後のフルバックアップデータから必要なデータを新しいフルバックアップデータにコピーすることにより「合成フルバックアップ」データを作成できる。この方法により、フルバックアップの欠点(ネットワーク経由での不必要なデータ転送)を解消して、フルバックアップの利点(必要なデータの収集による高速なリストア)を活かせる。

3つの製品はそれぞれ、若干異なる形で合成フルバックアップの概念を実装している(CommVaultとSymantecは合成フルバックアップを「合成バックアップ」と呼び、EMCは「セーブセット統合」という用語を使っている)。とはいえ、それらの製品すべてに1つの重要な考え方が共通している。それは、作成された合成フルバックアップは、実質的に他のあらゆるフルバックアップとまったく同様のものであり、リストアにはその合成フルバックアップが使用され、以後の増分バックアップはその合成フルバックアップに基づいて実行される、という考え方だ。元々のフルバックアップは、長期保持の目的の場合にのみ必要となる。

TSMユーザは、TSMのバックアップセットの概念が合成フルバックアップによく似ていると感じるかもしれないが、実際にはかなり違う。合成フルバックアップと異なり、TSMバックアップセットの内容は、バックアップデータベースで追跡しない。事実、TSMバックアップセットの主な目的の1つは、バックアップの「即時アーカイブ」を作成することであり、これはTSMデータベースで格納するよりも、長期間にわたってデータを保持するためのものだ(下記の「バックアップをアーカイブとすることは可能か」を参照)。TSMバックアップセットのもう1つの目的は、TSM無しで使えるバックアップを作成することだ。TSMバックアップセットは、TSMカタログを使用しなくても読み取ることができる。TSMバックアップセットがTSMデータベース内に保持され、標準的なリストアができるのであれば、それは合成フルバックアップと同じといえるだろう。

[コラム] バックアップをアーカイブとすることは可能か

IBM Corp.のTivoli Storage Manager(TSM)は、「バックアップセット」と呼ばれるものにバックアップデータをコピーする機能を持っている。IBMではバックアップセットを「即時アーカイブ」と言うこともある。これは、「バックアップはアーカイブではない」、また「バックアップを保持し続けたからといってそれが魔法のようにアーカイブに変身するわけではない」という、よく言われる定理に反するように見える。では、TSMの「バックアップセット」は本当にアーカイブなのだろうか。

この疑問に答えるために、Symantec Corp.のBackup Exec 2010の新機能を見てみよう。Backup Execは、市場をリードしているSymantecのEnterprise Vaultエンジンを組み込んでおり、ユーザがバックアップデータをこのエンジンにコピーすることで、アーカイブを作成できるようになっている。しかしBackup Execは、データをあるテープ形式から別の形式にコピーするだけではなく、アーカイブされたファイルまたはアプリケーションの内容のインデックスを実際に作成する。つまり、これらのアーカイブに対して、ファイルやExchangeの電子メールに含まれていそうな語句をキーワードとして、Googleのような検索ができ、そのデータをBackup Execが抽出してくれるのだ。

CommVault Systems Inc.のSimpanaにも、バックアップデータの内容を検索する機能がある。特定の単語や語句をキーワードとして、ファイルや電子メールを検索できる。Symantecと同じように、CommVaultには本格的なアーカイブ製品もあるが、CommVaultのバックアップデータに対してもアーカイブのような検索ができる。

この機能と、TSMの仕組みを比べてみよう。TSMバックアップセットに含まれるデータベースエントリは、実際に通常のTSMバックアップに比べて少ない。その目的は、TSMデータベースで格納しきれなくなった古いファイルを「アーカイブ」することだ。よって、TSM「即時アーカイブ」のコンテキストは、通常のバックアップよりも多いのではなく、むしろ少ない。一部の製品で「バックアップをアーカイブにする」ことは可能になったが、TSMバックアップセットを「即時アーカイブ」と呼ぶのは「アーカイブ」という言葉に比べ見劣りがする。

とはいえ、TSMバックアップセットに価値がないとは言っていない。TSMバックアップセットでは、TSMデータベースで可能な期間よりも長期保持が可能であり、またTSMをインストールしなくともリストアが可能だ。


仮想サーバのバックアップ:ますます簡単に

サーバの仮想化は、多くのデータセンターにとってありがたいものだった。「専用サーバ」を必要とするアプリケーションは非常に多かったが、実際にそれらすべてが本当に必要としていたのは、専用サーバが割り当てられていると「認識する」ことだった。それらのアプリケーションのCPUとI/Oの要件は、サーバ仮想化製品を利用してリソースを共有することにより簡単に満たすことができた。ところが、そこでバックアップについて考慮する必要が生じた。

大半のアプリケーションは簡単に仮想化できたが、バックアップは「夜になってもおとなしく寝よう」とはしなかった。バックアップは、大量のスループットに対応できる、大量のCPUと大容量のストレージのリソースを必要としていた。バックアップは、ストレージとネットワークのシステムをテストする良い方法だと言われてきた。バックアップを行うには、毎夜、非常に多くのものをA地点からB地点に移動する必要があるからだ。I/Oの問題が発生する可能性はあるが、大半のユーザは、仮想マシン(VM)のバックアップに、単にそれが仮想マシンでないように対処してきた。バックアップクライアントを仮想マシンにロードし、それをスタンドアロンサーバと同じようにバックアップする。 VMware Inc.は、VMware Consolidated Backup(VCB)にてVMバックアップの負荷を軽減し、ESXサーバのI/O問題を解消しようとしたが、これはVMのバックアップをさらに複雑にしてしまった。VCBでは、イメージバックアップに2段階のバックアップ手順と2段階のリストア手順が必要であり、別のディスクステージングエリアも必要となる。VCBの利用ユーザが非常に少ないことは無理もない。Microsoft Corp.のHyper-Vなど、他の仮想サーバアプリを使用しているユーザも、VMのバックアップは、あたかも物理サーバのように対処してきたようだ。

バックアップの今後の展望は、次の2つの製品のおかげではるかに明るくなりそうだ。VMwareはvSphereを、MicrosoftはHyper-Vのバックアップアーキテクチャ(「公式な」ブランド名は付いていない)を展開した。VMwareのVCBの代わりとなる、vStorage APIs for Data Protection(VADP)は、VCBにあるとされた機能をすべて備えており、ブロックレベルの増分バックアップという概念を導入している。ユーザは、事前にデータをステージングディスクにコピーしなくても、イメージバックアップができるようになった。また最後のバックアップからどのブロックが変更されたかを、バックアップアプリケーションからvStorage APIに問い合わせるようにするだけで、増分バックアップができる。APIによって、VMwareによる仮想サーバのバックアップがより便利になっている。vStorage APIをフルサポートした最初の主要バックアップ製品はEMCのAvamarで、すぐ後にSymantecのNetBackupが続いた。本稿執筆時点で、CommVault、EMC NetWorker、およびIBM TSMはいずれもvStorage APIの統合に取り組んでいる。

MicrosoftのHyper-Vのユーザは、使っているバックアップ製品がHyper-Vサーバと通信していることが確認さえできればいい。Hyper-VはvStorage APIほどに高機能ではない面もあるが、よく似た効果が得られるため、仮想マシン内でのゲストレベルのバックアップではなく、Hyper-Vの仮想マシンをバックアップすることができる。

Hyper-VにはVMwareより有利な点が1つある。それは、Microsoft Volume Shadow Copy Service(VSS)を完全にサポートいるが、VMwareではそれをサポートしていないことだ。。Hyper-Vは、VSSを使用してアプリケーションを休止し、バックアップの正常完了をアプリケーションに通知する。そのためHyper-Vユーザは、Windows VMにエージェントをロードしなくても、VM内のどんなアプリケーションでも整合性のあるバックアップを作成できる。さらに、アプリケーションのバックアップが完了したことをアプリケーション自体が認識するため、アプリケーションはトランザクションログを消去することができる。

VMwareでは、Windows 2003内のアプリケーションを休止することはできるが、実際に実行する処理(VSS_COPY)では、バックアップが完了したことがアプリケーションに通知されない。よってトランザクションログの管理はユーザ自身が行わなければならない。またVMwareは現時点で、Windows 2008のアプリケーションをサポートしていない。本稿執筆時点で、VMwareはこの制約への対処に取り組んでいるが、ロードマップのスケジュールについては何もコメントしていない。この制約は、各種バックアップ製品にとっては、それぞれの差別化を図るチャンスとなった。現時点では、FalconStor Software、NetApp、PHD Virtual Technologies(esXpress)、Symantec(BackupExec)、およびVeeam Softwareがいずれも、VMwareのこの制約に対処するための回避策を提供している。

略歴:W. Curtis Preston氏は、SearchStorage.comのエグゼクティブエディターでありフリーバックアップ専門家。

All Rights Reserved, Copyright 2000 - 2010, TechTarget
*この翻訳記事の翻訳著作権はJDSFが所有しています。
このページに掲載されている記事・写真・図表などの無断転載を禁じます。

strage magagine2009年12月号