慶應義塾大学 村井 純 教授 VS 早稲田大学 亀山 渉 教授
テーマ2
放送と通信の技術的課題は何か?
【1】映像の情報量には上限がない!
—通信の代表として電話(音声)技術があり、放送の代表としてテレビ(映像)技術がありますが、放送と通信の技術的な課題はなんでしょうか?
村井 前回、亀山先生がおっしゃったことでとても重要なことは、「放送と通信はもともとは一緒だった」という点です。ここで電話(通信)と映像(放送)の違いを情報量の違いから考えてみましょう。
電話の情報量というのはとても簡単なのです。人類は60億人しかいない。1人の人間は、通常、電話は同時に1個しかかけられない。そうすると、全員が同時に電話しても30億回線しか使わないわけです。30億回線で、1個の電話の伝送速度が64kbpsとすると、64kbps×30億回線(=192×1012bps=192Tbps:192テラビット/秒)と簡単に計算できます。
このように、電話は1秒間にたかだかこれだけの情報量しかないのです。電話が使うこの程度の情報量の大きさは、インターネットではとても小さな情報量であることが、1980年代からわかっていたわけです。
つまり電話は、インターネット上のアプリケーションになれるのか、あるいは今後、インターネットによる電話(VoIP)で電話料金を取るビジネスは難しくなるのではないか、と予測されていたのです。
—しかし電話(VoIP)は重要なアプリケーションとなりましたね。
村井 そうはいっても、このような流れの中で、インターネットの世界にはすごく重要な技術が実現されました。それはインターネット電話などで起こったことですが、インターネットで時間をコミット(保証)したこと、つまりストリーム通信(リアルタイム通信)を実現したことです。
電話(音声)のストリームというのは、時間に関しては厄介なところがあるのです。また、この音声ストリームは、インターネットで一番苦手な通信方式です。もともとインターネットというのは、ベストエフォートですから途中で捨ててもいい。なぜならば、インターネットの原理は、「(データを)捨てたとしても、送ったデジタル・データをもう一度送り直せば(再送すれば)、きちんと相手に届く」という仕組みでできているからです。
しかし、音声のストリーム、つまり実時間(リアルタイム)のストリーム(ストリーム・メディア)は、その原理には当てはまらないのです。再送していたら会話(電話)になりません。
その後、実用化研究が進んで、インターネット上で音声を流すアプリケーションがVoIP(IP電話)としてビジネスになってきたのは、1990年代の終盤からですね。現在ではVoIP(IP電話)は急速に普及してきています。
一方、テレビ放送では映像が中心的な役割を果たしますが、映像というのはいくらでも情報量が多くなり、先ほどの電話と違って上限の予測がつかないのです。そのため、画質にもよりますが、すべての人がテレビ電話をインターネット上で、自由自在に操る場合のトラフィックは予測がつきません。
しかも映像の場合、テレビ放送のように多くの人が同時に見たり、置いてあるアーカイブを見に行くという現象が起こる。これは、トラフィックから見ると、電話と大きく違うのです。電話のリアルタイムは、60億人という人類の総人口で上限を決められているのですが、映像の場合は上限はありません。
【2】音に起こったことは映像にも起こる!
—亀山先生、音声ストリームのことや、映像の情報量などについて、いかがですか?
亀山 村井先生のお話で思い出したのですが、1970年代に「パケットを使って音声を流せるようになる」ということをテストの答案で書いたら、先生から「そんなのできるわけない!」と、大バツをもらったはずです。パケットではリアルタイム情報を流せないぞ、というわけです。ジッター(揺らぎ)や遅延などいろいろあるので無理だというのが、70年代までの常識だったんです。ところが1980年代になって、これが覆って、IPネットワーク上でIPパケットによる音声が流せるということになってきた。
ところが、映像はまだそこまでいかない。しかし、歴史的に見ると、5年先なのか10年先なのか不確定なところはありますが、音に起こったことは必ずいつか映像にも起こる。ただ、簡単な映像でしたら、今でもたとえば、インターネットによる無料の映像配信サービスなどで流れている画質程度でよければ、容易に実現できます。
しかし映像の場合は、標準テレビ(SD:Standard Definition)の先にハイビジョン(HD:High Definition)があって、さらにその先にスーパーHDがあるため、音とは違って限界が見えないところがあります。ただ、映像の場合、現実には、実用上ある程度の画質のサービスでも受け入れられる面があります。
たとえば、ワンセグを見て、多くの人からきれいな画像だという評価を受けているようですが、携帯電話へのワンセグ放送サービスの画面は、縦横の画素数を通常の標準テレビよりも少なくし(320画素×180画素)、画面(フレーム)をコマ落ち(1秒間に15フレーム。普通のテレビは約30フレーム/秒)させたうえに、圧縮をかけているんですね。伝送速度は300kbps程度ですから、ワンセグの画面程度の画質であれば、すぐにでもインターネットで実現できることになると思います。
—村井先生は、映像に関して、圧縮された映像というより非圧縮のリアルタイム映像を使いこなしておられますが、非圧縮のよいところは?
村井 映像のデジタル技術には、まずフレーム(画面)というのがあり、そこに音声をはめこんでいて、このフレームが1秒間に15フレーム、あるいは30フレーム流れる。これをいかに縮めるかというときに、前のフレームを送ったから、次は同じ部分のデータは送らずに、変化した差分データだけを送ればいいという映像圧縮技術につながってくる。
しかし、標準テレビ(SD)の画面をこのような時間方向に圧縮しないで丸ごとインターネットに投げる場合を計算すると、1秒間に35メガビット(35Mbps)程度必要です。この程度の伝送速度で送信できるような、いわば夢の環境がやがて訪れるのなら、(時間方向に)圧縮しないで投げるほうがよいのでないかと思ったのです。
ネットワークが混雑してきたら、フレーム単位でパケットをどんどん落として(コマ落ちさせて)、フレームを間引いてしまえばいい。このように、圧縮していないきれいな映像のフレームを間引いていくと、圧縮して画質を落とすよりも、意外にきれいなのです。
要するに、「1フレームできました」「はい、じゃあIPのヘッダを作って送信してください」と。また、「1フレームできました」「はい、IPのヘッダを作って送信してください」と。この方法でやってみようと作り始めたのです。しかし、これがなかなかうまくできませんでした。コンピュータやルータなどの仕組みと整合性が取れなかったのです。かなり試行錯誤して長い期間かかりました。インターネットと映像の感動的な出会いでしたね。