未来のいつか/hyoshiokの日記

hyoshiokの日々思うことをあれやこれや

世界の情報量を呑み屋で語る

先日元D社の人達と酒を呑む。東京駅界隈の居酒屋でおやじがあーだこーだと語り合うのは暑苦しい感じもするがまあいいではないか。で、世界の情報量がどーだこーだという話になって、テラの次がペタでその次がエクサだけど、すぐに単位がなくなるなあ、いやそんなことはない、エクサでも十分でかい、いやもうすぐだ、どーだこーだ。わたしの主張は一年に1ビットづつ情報量が多くなったとしても100年でたかが100ビットだよ、それって10進数で約30桁だ。大丈夫よ。全然。
さっそくgoogleで調べてみる。
http://www.nn.iij4u.or.jp/~hsat/misc/math/bigsmnum.html
なんかをみると無量大数は10の68乗である。しかし英語での表現はエクサ(exa=10**18)、ゼタ(zetta=10**21)、ヨタ(yotta=10**24)でちょっと足りない感じがする。最近ではペタサイズのストレージも出ているのでエクサのストレージが出て来るのもそう遠くない未来かもしれない。
昔書いたメモを引用する。

コーヒーブレーク
11/05/01 *1

世界の情報量

世界中にどのくらいの情報が氾濫しているのかを考えるのはヒマつぶしには丁度いい。最近オープンした、世界中のWebコンテンツを時系列でアーカイブしてれるサイトは久々にそんなことを考えさせてくれた。

http://www.archive.org/

ここは1996年ころからの現在迄のコンテンツを全て保存しようという試みをしている。自分が作った昔のページも保存されていたりして、Webのタイムマシンである。

さて、彼らが保存するWebの現在のサイズは2001年3月時点で約40億ページで43テラバイト同10月の時点で100億ページ、100テラバイトである。

(単位の復習、1テラバイトは1000(あるいは1024)ギガバイト)

米国国会図書館の蔵書が約20テラバイト。ビデオが1時間約1ギガバイトなので5000本くらい在庫があるビデオ屋は8テラバイトである。ラジオ局も8テラバイ程度の情報量を持っている。

Michael Lesk は、1997年時点の世界の情報量を推定している。
http://www.lesk.com/mlesk/ksg97/ksg.html

まず、Webのサイズだが、97年時点で、2TB(テラバイト)弱で年10倍増加している。米国国会図書館の情報量は十数TBなので、98、99年ころ、その分量に到達する。インターネット利用者を5000万人として、それが10億人になるころには、20倍になる。一人あたり20倍の情報をWebにのせるとすると、400倍、すなわち800TB Webに公開される文字情報の上限になるのだろうか?

それでは、イメージ、映画、音などは?

米国国会図書館の情報量を20TBとする。

1) 1300万枚の写真 13TB
2) 400万枚の地図 200TB
3) 50万の映画 500TB
4) 350万の録音情報 3000TB

米国では3800万トンの紙を生産している。1ポンドの紙はA4サイズ220枚で、一あたり5000バイトで、これは8000TBになる。平均100枚印刷し、その半分の情報がつまっているとすると40TBである。4000万人のノレッジワーカーが1MBを毎年生産すれば、それも40TBである。米国のGDP($30.8B)は世界の1/4だから、世界には160TB程度の情報があるといえる。

そのほか文字情報以外に

1) 映画、4615本(1989)世界で制作された。5MB/Sec;7200 sec 166TB
2) イメージ 520億枚、520PB
3) 放送 米国には1593放送局がある。200PBだが、ユニークなものを1/10とすると20PB
4) 音楽 米国(1992)では、約4億枚のCDと3億3千万枚のカセット、2000万枚のコードで400PB。3万タイトルが出荷されているから、15TB程度。世界では60TB
5) 電話 5000億分(米国1994)、その20倍のローカルコール。56Kbits/secとすると4000PB

これら全てをあわせて、情報量を推定すると12000PB

世界のコンピュータの記録容量は総量(1998)はどのくらいか?

磁気ディスク 250PB
RAID 65PB
光ディスク 25PB
光ジュークボックス 250PB
磁気テープ 10000PB
テープスタッカー 2000PB

2000年前後には、人間が生産する全ての情報を記録することができるようになる。

さらに言えば、一人の人間の一生すべてを記録することは不可能ではない。世には情報を蓄積するのに十分な記憶装置がすでにあるのである。そして今も増加しつづけている。

UCBのPeter Lyman/Hal Varianらも同様の研究をしている。
http://www.sims.berkeley.edu/research/projects/how-much-info/

誰が情報を生産し、誰が消費するかという問題もなかなか興味深い。

ブロードバンドというのは情報の生産にはほとんど寄与しないが、流通コストを下げるので間接的に情報を保存する媒体の利用に影響をあたえるかもしれない。

googleがやっているgmailのサービスは一人あたり1GBのストレージを提供していてメールの整理に新しいパラダイム(?)を見せる。通常は受け取ったメールをフォルダーに分けたりして整理するわけだが、整理と言うのはそもそも後で利用する時に素早く発見するためにするので、後で素早く発見できるのならフォルダー分けとか、そーゆー面倒なことはしなくてもいい。gmailgoogleで培われた検索テクノロジーで、その問題を解決しようと試みる。とりあえづ来たメールは削除もせづに延々とarchiveに貯めろという。後で必要になったらgmailがあなたに代わって探し出す。うーん、潔い。メーリングリストとかは徐々にgmailに移行していこうと思った。それもこれもビット単価がやすくなったので実用的になった技術である。

*1:2001年11月5日