間違いだらけのネットワーク作り(119) 2000/03/11
「PRISMの音声サービス延期」

98年に華々しく打ち上げられた日本テレコムの次世代IPネットワーク、PRISMを利用したIP−VPN商用サービスが4月から「SOLTERIA」という名前で開始されるとの報道が3月8日にありました。 しかし、昨年4月からの実験では提供されていた目玉のVoIPは秋まで延期とのこと。  3月9日の日経新聞では書いていませんが、前日の日経BizTechには

”VoIP(Voice over IP)サービスは、2000年秋に商用サービスを開始する計画。VoIPは、VPNサービスと同時に実験サービスを実施していた。しかし、品質改善がさらに必要であること、電話番号体系など制度を固める必要があること、などの理由から、4月のサービス開始は見合わせた。”

と明確に報じられています。 日経本紙が何故こんな基本的な情報を報道しなかったのかは分かりません。  PRISMのうたい文句はIPで電話サービスも提供し、従来の電話交換機を使わないというのが最大の特徴だったはずです。 日本テレコムも技術・製品を提供するCISCOも、2000年4月商用サービス開始に向けて面子をかけて取り組んだはずです。 それでも間に合わせられなかった、というのが先週の記事でふれた大規模なVoIPの難しさを象徴しています。

PRISMは高速回線が主体。 VoIPにとってはめぐまれた環境です。 しかも、NTTの電話網のごとく公衆サービスではなくIP−VPNという閉じられた企業内のサービスです。 

現在の問題がどんな原因によるものなのか、秋に向けてどんな対策を打って品質改善するのか、大いに興味があります。 いずれにせよ、PRISMが出足でつまづいたことは事実です。
 

日経コミュニケーション、3月6日号「企業ネットワーク、次ぎの一手」では、ある大企業が新しいネットワークはVoIPが使えることを確信した、CWC(クロス・ウェーブ・コミュニケーション)か、PRISMのいずれかを使う、と書かれていました。 何を根拠にVoIPが使えると確信したのでしょう? 小規模な実験環境で確かめたのでしょうか? PRISMが上記のような状況であること、CWCはそもそもQoSの保証がないことを考えるとVoIPに確信を持つのは難しいと思うのです。 そして、「間違いだらけ」で繰り返し書いているように、ネットワークの品質はその規模によって大きく変わるため、箱庭のような環境で実験してOKでも本番環境でいいかどうかは分からないのです。
 

それにしても楽しみになりました。 年内にはVoIPが大規模ネットワークで使い物になるかどうかの評価が確定するでしょう。 ふたを開けたら、ATMを併用したMPLS、などということになっているかも知れません。 

さて、今週はRISMのことなど書くつもりはなかったのです。 電話の音質をどう評価するか、ということについて情報化研究会のMさんが興味深いメールを送ってくれたので紹介します。 音質の評価では複数の人に音声を聞いて貰って評価するMOS(Mean Opinion Score:0が最低で4が最高)というのが使われますが、MOSというのは結構いいかげんで日本人が評価するか、米国人が評価するかでも結果が違うということです。 

MOSによる音質評価について

品質評価として一般的に実施されているMOSに疑問があった際に、某研究所の某氏とやりとりしていました。 結構内容的に勉強になりましたので、許可を得た部分だけ転送します。  # 皆様には当たり前の事かもしれませんが・・・

PSQNについては全く知らなかったのですが、最近ではアジレントのVQTの紹介で目にしました。

-----
Q.一般的にVoIPでは主観評価であるMOS値の評価が用いられて いることが多いですが、評価試験のノウハウみたいなものはある のでしょうか?

   →「色々なノウハウがあります。例えば、『品質が知られている サンプルをリファレンスとして挿入して、これをベースに評価結果 を再評価する』とか、『本当に品質を知りたい条件のパラメータは前後に振らせて、カーブとしてMOSを求めるべき』などです」

Q.私が聞きたかったのは、本来客観的な指標で図るべき音質です が、VoIPではMOS値といった人の主観によるもので評価すること が多いみたいですがMOS値といった人の主観で図ったものが本当   に音質の評価になるのか?ということです

→半分YESであり、半分NOです。

   MOS値は数十人以上の被験者のオピニオン評点を平均化すること で、全ての利用者(潜在的利用者を含む)のオピニオン評点の分布 の平均値を推定したものです。 分布ですから、標準偏差も問題になり そうですが、5段階評価の場合、よほど異様な試験結果でない限り、  標準偏差は0.7〜0.8の範囲におさまります。 即ち「MOSを求める」 =「オピニオン評点の母集団分布を推定する」ということになります。

「日本人全体のオピニオン評点の母集団分布」は、不変量として捉えていますので、MOSは「主観的手法により推定した客観量」という性格を持つものです。 「5段階の満足度評価は、時代と共に変化するので、不変量とは呼べない」と言われそうですが、私どもは、試験に際して、既にMOS値が確定している(とみなしている)条件を幾つか試験条件の中に混入させて、その評価結果と広く認められた確定MOS値との間を対比させた上で、試験で求めたMOS値(実験MOS)を従来データと比較できるMOS値にスライド&伸縮させて再評価します。 これを「読み替え」と呼んでいます。 このようにして得られた最終MOS値は、主観的な手段で得られたデータでありながら、客観的な比較に耐えられるものであると考えています。 当然、これを測定器という客観的手段で評価する方法の研究も行われています。 PSQMもそのような研究成果として生まれました。

ただ、VoIP品質では、まだすべての評価を客観測定で評価するレベルに到達していません。 どこかで、主観評価の結果を直接利用することになります。
-----

最近知った注意事項ですが・・・

出力されたMOSの値は鵜呑みにしてはいけないようです。 一般論で、アメリカ人は日本人よりも甘く評価をします。 かつて15、6年前に当時のCCITTで日本・米国・中国の被験者を使って国民性の相違を評価した時の結果では、平均的に中国人は米国人よりもMOSが1程度高くなり、その米国人は日本人よりもMOSが0.5程度高くなるという結果が出ていました。 また、NTTでは、MOSを0〜4の範囲で記述するのに対して(映像品質部隊の影響・・・・・?昨年VoIP検証を実施した時は確かに0〜4を使用しました。 何か技術情報誌を見て参考にした記憶があります)最近は、音声のMOSを1〜5で評価する組織も多くなっているようです。

このあたりに注意しないで、「MOS値で○○を満足」などと言っても何の意味もないことになります。 MOS値はあくまでも差だけに着目するのがよいようです。

遅延時間の影響をどういう会話パタンをベースにして評価しているのかは不明です。 自由な会話とビジネス会話では影響の大きさを変えて評価すべきと思います。

長くなりましたが・・・失礼します
-------------------------------

*ウ〜ん、音質評価って難しいんですね。 皆さん、ベンダーのいうMOS値をうのみにするのは止めましょう。 ちなみにMさんはVoATM、VoIP音質評価をされているとのこと。 これくらい真剣に評価方法を考えている方の評価結果なら信用できるな、という気になります。

 
 
 
 

ホームページへ