JEITAテープストレージ専門委員会コラム
「データの冗長性はどこまで必要か? DNAの修復機能からの検証」

 

人間がここまで進化できたのは、言葉の発明、文字の発明の要素が大きいと思う。
生命には終わりがあり、その経験知識を次世代に伝えるのは、何らかの情報記録媒体が必要である。 言葉の発明はまさにこれを可能にしたものだが、口から口への場合、伝言ゲームのように元の情報からかけ離れた情報に変わってしまうのは想像に難くない。文字の発明は情報伝達の正確性を飛躍的に向上させた。ところがこの文字もロゼッタストーンのように何千年も保存されることは希であり、殆どは写本、つまりコピーを作ることにより情報が継承されていった。現在ではこの文字を含め、あらゆる情報がデジタル化され、そのコピーを作り続けることでデータが正確に受け継がれていくのだが、その際に、あらゆる外乱からデータの破損を防ぎ、正確に保存するには複数のコピーを同時に作成、保管し、その完全性を担保する必要がある。ではそのコピーはいくつあれば安心できるのか? 

 

例えばITの世界で見てみると、Hadoop分散ファイルシステムでのレプリケーションデフォルト値は3である。その場合データは3つの異なるノードに保存され、またそのうち1つは異なるラックのノードに保存される。
ITよりも古くから実績のある産業ではどうだろう。例えば、高い安全性の高さが求められる航空機の場合、一般的に3重に冗長性が確保されていると言われている。また有人ロケットなどの冗長性は4重とも言われている。
さらに実績のあるものはなんだろう?究極は、最も長い時間をかけて淘汰されてきた生命の、DNA複製の仕組みから学ぶことだろう。

 

損傷を受けたDNAはその修復機能により修復され、間違った情報がコピーされないような仕組みになっている。その修復が追いつかないと、最悪の場合癌化してしまう。勝手な解釈で言うと、DNAはいわばハードウェアで、その修復機能は半導体メモリーの自己エラー検出、自己エラー訂正機能のようなものとも考えられる。一方、中に書かれているゲノムはデータであり、そのうち遺伝子は最も重要なデータではないだろうか? 通常ヒトの細胞には遺伝子は2個(2コピー)あり、一つは父方、もう一つは母方に由来するとされる。他方、DNA修復機構が強化された生物などは、遺伝子のコピーを4〜10個ほど持っていると言われている。癌による死亡率くらいの勢いでデータセンターのデータが破損したらどうだろうか?考えただけでも恐ろしい。やはり重要なデータのコピーは4つは欲しいところだ。これで有人ロケットレベルである。ところが4つもコピーを作るとなるとデータは4倍、デデュープやインラインデータ圧縮などを使ってもかなりのコストアップである。理想的なのはデータの分散配置と、より外乱に強く低コストなデータストレージシステムを使うことであろう。ロゼッタストーンさながら、石にデジタルデータを刻むのもありだが、やはりIT業界で実績があり、近代コンピュータとともに歩みを進めてきたテープストレージが現実的なのかと思う。コンピュータウイルスや、オペレータのミス、ソフトウェアのバグなどに対して、極めて高い耐性を持っているし、更に容量あたりのコストが極めて低いからである。


一般社団法人 電子情報技術産業協会(JEITA) テープストレージ専門委員会 (※)
日本ヒューレットパッカード(株) 井上 陽治
※:旧名称:磁気記録媒体標準化専門委員会