重複排除技術の豊富な選択肢

著者:Lauren Whitehouse
Storage Magazine 2009年5月号より

 

ハードウェアベースの製品が重複排除技術を主流に押し出す推進力だった。だが今や重複排除技術はバックアップアプリケーションにほとんど取り込まれているので、その選択肢を慎重に評価する必要がある。
データの増大は最近のITニュースでは大きく取り上げられている。IT関連企業では、管理が必要なデータ容量がここまで増えた元凶のひとつはデータ保護だと考えている。いったいなぜ? データ保護の過程で多量のコピーが生成され、少なくとも日に1回、場合によっては1日に何度もリカバリ運用に備えてローカル(サイト)に保存される。コピーのコピーがディザスタリカバリ(DR)用にオフサイトに送られる。ほとんどのバックアップとレプリケーションは処理方法が非効率で、ファイルで変更された個所はほんの一部だけなのに、ファイルをまるごと、しかも複数コピーしている。

日次、週次、月次、年次のバックアップコピーを維持するということは、同じデータの多数のコピーが、時には長期にわたって格納されるということである。このようなデータの増殖こそ、二次ストレージ環境にてデータ重複排除技術が切実に必要とされる理由である。これまで、重複排除技術の中心はストレージ容量最適化機能を担うハードウェア製品だったが、2009年にいくつかのバックアップアプリケーションに重複排除技術が追加されるようになって、注目ポイントが移ってきている。

テープベースのデータ保護のパフォーマンスと信頼性の欠点を克服しようと、バックアッププロセスにディスクを実装する企業が増えている。その中で、データ重複排除技術は、ディスク上に(恐らくテープを完全に排除して)データを長期間保存したり、テープに長期間保存する前の仮の保存場所としてディスクの使用量を増やす場合の、経済的採算性を高める手段として浮上してきた。重複排除技術はユニーク(新規か変更された)データだけをディスクに書き込むことや、 以前に格納された未変更のデータにポインタをつけてリンクすることでストレージ空間を節約する。


重複排除手法の比較

ハードウェアベンダーは、バックアップデータがディスクに書き込まれる前もしくは後に処理される、専用の重複排除アプライアンスで強力に重複排除の採用を先行させた。ハードウェアベースの手法は既存のバックアップ環境になじみやすく、重複排除技術を実装することを比較的容易にした。エンタープライズ・ストラテジー・グループ*(1訳注)の研究は、企業にとって、既存のバックアッププロセスへの統合のしやすさと使い勝手の良さが、重複排除率や重複排除の精度などの具体的な技術的検討材料よりもいっそう重要な採用ファクターであることを示している。

バックアップソフトウェアのことになると、既存のデータ保護業務にシームレスに統合しなければならないのと、IT企業の根深い変化への抵抗から、重複排除技術を提供するバックアップソリューションプロバイダはデータセンターで共通の理解を得るのが難しかった。EMC Corp.がAvamarをより優れた、効率的なデータバックアップの手法として売り出したとき、EMCは乗り越えがたい障害に直面した。それは既存のバックアップアプリケーションから移行したくないという思いだ。IT企業はその利点をはっきり理解できたが、データ保護環境の運用面 ~人とプロセス~ に波及効果を及ぼす技術的変更に着手する気にはならなかった。EMCのAvamarはデータセンターに入るのに遠回りしなければならなかった。 遠回りとは、遠隔事業所や支店向けに帯域確保と最適化ストレージ のバックアップソリューションや、サーバー仮想化環境のために今までとは異なる効率的なデータ保護として提供しなければならなかった、という事である 。
だが、EMCとシマンテックが買収した重複排除ツールを(EMCはAvamarをNetWorkerに、シマンテックはPureDiskをVeritas NetBackupに)統合し、一方でCA、 CommVaultおよびIBMがネイティブの重複排除ツールを最近になって発売したことなどから、多くのIT 企業ではどれが重複排除技術の実装としてベストかについて ~ハードウェアかソフトウェアか~ 考えるようになった。肝心なことは、すべての条件を一度に満足させる製品はない、ということだ。

考慮すべき点

自社の環境に最適なのは、バックアップアプリケーションにビルトインされた重複排除機能か、それともバックアップストレージシステム に機能を組み込んだものなのかを決定するために、バックアッププロセスの中で重複排除技術を評価することになる。そしてその際には、コスト、パフォーマンス、スケーラビリティおよび重複排除ドメインはまず考慮すべきポイントである。


コスト。 恐らく、ストレージの必要容量を20分の1にまで削減できる技術なら、投資も容易に正当化されるだろう。バックアップアプリの機能か、ハードウェア装置の「アドオン」機能か にかかわらず、これらの機能を有効にしたときに 追加料金が発生するか?新しいバージョンやモデルへのアップグレードが必要か? 重複排除技術がその製品(ハードウェアまたはソフトウェア)の標準機能であっても、それを実装する際に他にどんなコストが推定されるか(例えば、ネットワークやサーバー、ストレージリソースなどの追加)?

パフォーマンス。 バックアップに要求される作業負荷がまちまちなように、重複排除技術も形やサイズがいろいろある。ソフトウェアとハードウェアの製品を両方とも取り入れることで、異なる重複排除技術を共存させたり互いに調和させたりすることもできる。バックアップソフトウェア でのソースデータ 側で 重複排除を適用するやり方は、ネットワーク効率を大幅に向上させることができるので、リモートシステムにうってつけである。 ターゲット側に重複排除を適用するやり方は、バックアップの時間枠がもっとも 切迫している作業にふさわしい。


スケーラビリティ。 重複排除技術はストレージ容量を拡大する必要性を小さくしなければならないが、一方では、重複排除環境に与えるツールの拡張の影響も考える必要がある。実装したツールの拡張は簡単にできるのか難しいのか、また拡張によって大量のストレージを導入することになり(そのため重複排除を制約し)、管理作業が増えることになるか、などを判断しなければならない。また、拡張するのにフォークリフト・アップグレード*(2訳注)が必要か、またはもっとシームレスに実現できるか?


重複排除ドメイン。 重複排除作業の範囲も考慮する必要がある。重複排除作業は ~論理的か物理的かを問わず~ 単一の筐体内に限定されるか、または目標はもっと広いか?
このように重複排除技術の選択肢はたくさんあるが、逆に混乱してしまうこともある。ベンダーは重複排除技術全般についてや、彼らのソリューションがどのようにその解決をめざしているかをユーザーに教えるチャンスである。そして、ユーザーはソリューションの候補をリストアップする前に自分のバックアップ環境と要件を理解することが必要である。ベンダーとそのツールの根拠を調べ厳しく吟味しよう。そして最も重要なのは、自分のデータを使って何サイクルかバックアップに適用して製品をテストすることである。


*1[訳注] 市場調査会社。略称ESG。
*2[訳注] コンピュータシステムをアップグレードするさい、ソフトウェアだけでなくハードウェアも含めてすべてアップグレードすること。

引用: Goo辞書
「EXCEED英和辞典」(提供元:株式会社三省堂)
「英辞郎」(提供元:Electronic DictionaryProject)


経歴:ローレン・ホワイトハウスは米国マサチューセッツ州ミルフォードのエンタープライズ・ストラテジー・グループのアナリストで、バックアップおよびリカバリソフトウェアおよびレプリケーションを専門にしている。

略歴:Jacob Gsoedlはフリーランスのライターで業務システムの取締役。メールアドレスはjgsoedl@yahoo.com

STORAGE MAGAZINE5月号


All Rights Reserved, Copyright 2000 - 2009, TechTarget
*この翻訳記事の翻訳著作権はJDSFが所有しています。 このページに掲載されている記事・写真・図表などの無断転載を禁じます。