社会・地域貢献
教養番組「知の回廊」16「人工知能は夢をみるか」
中央大学 理工学部 鈴木 寿
解説:コンピューター産業
産業界が、ひたすら高速・大規模化を目ざしてコンピューターの開発競争をおこなったことにより、LSIすなわ ち大規模集積回路の小型化が進み、大量生産されるようになりました。その結果、情報処理機器の価格は大幅に下がり、大衆への普及と消費の拡大を促しまし た。最近はこの傾向がさらに進んで供給が過剰気味になっていることから、国内の大量生産メーカーは今までのように多数は必要なくなっており、このことを反 映したIT不況が深刻化しています。新聞やテレビでは、ITバブルが崩壊したとか、IT産業はもうおしまいだとか盛んにいわれています。
ところが、情報関連分野で常に世界市場を席巻してきたアメリカにおいては、ハードウエアのコストダウンに伴う利益の減 少は、かなり以前から予想されていました。現在、日本国内でいわれるところのIT不況とは、実はネットワークの普及に伴うインターネット関連商品の初期需 要が一段落ついた現象に過ぎず、単に一商品の寿命が尽きたにほかなりません。広く世界においては、いわゆるIT不況の根源的な原因、すなわち、裏を返して いえば「これからのビジネスチャンス」は、もっと別のところにあると考えられており、マイクロソフト社を始めとする世界の有力企業は、その辺りの未来目標 を鋭敏にとらえています。
いま、コンピューターをとり巻く環境は、量を追求するハードウエア一辺倒の世界から脱却し、質を追求するソフトウエア 中心の段階に移行しようとしています。通信網と市場のグローバル化に伴って、消費者の志向は際限なく多様化しました。そのような観点から見た場合、IT不 況の真の原因は、実は、多様な消費者の需要を満たせるような高品質ソフトウエアが供給できていない点にあることがわかります。単にコンピューターの機械的 性能を向上させるだけでなく、十分に大衆化したコンピューターを使って何をおこなうかが問題となってきたわけです。
情報産業界においては現実に、チップの単なる大量生産から、特種用途かつ小規模生産への移行が始まっています。パソコ ンなどの汎用情報処理機器だけでなく、携帯電話や携帯端末機などに搭載可能なDSPすなわちディジタル信号処理器、あるいは、FPGAすなわちフィール ド・プログラマブル・ゲート・アレイなどが普及しつつあり、アルテラ社やザイリンクス社などの企業も台頭しつつあります。
このような時代状況を背景とし、中央大学 理工学部 情報工学科は、高品質なソフトウエアを開発できる高度情報処理技術者の育成に、特に力を注いでいます。 現在、IT産業を活性化するための国策の一部として、経済産業省下の特種法人である情報処理振興事業協会によって「未踏ソフトウエア創造事業」が進められ ています。鈴木研究室は、株式会社 機械学習研究所すなわちML-LABOに協力し、平成12年度未踏ソフトウエア創造事業の第一期としてML-LABO発案の企画が採択されたことを契機 に、人工知能分野における産学共同研究へと本格的に参画する態勢を固めました。このプロジェクトにおいて、FPGAに搭載したとき毎秒5千万ビット以上の 処理速度での誤り訂正復号を可能にする、次世代高速通信用のヴィタビデコーダーを新開発することに成功しました。
そして、この技術の中心部には、人工知能分野において今後の基幹技術となる可能性のある、新たに発明された探索アルゴリズムを採用しています。
研究紹介:探索アルゴリズム
人工知能における探索アルゴリズム
探索アルゴリズムは、人工知能を支える最も基幹の技術です。
簡単な例として、2行2列からなる箱根細工の問題について考えてみましょう。図のように、赤・青・黄の3個の駒が置かれており、空白が1個あるとします。左の状態から出発して、右の状態に到達するためには、どの駒をどのような順番で動かせばよいでしょうか。

次の図におけるレベル0の状態すなわち頂点が、出発の状態です。もし黄色の駒を下へ動かすとレベル1の左の状態となり、もし赤を右へ動かすとレベル1の右 の状態となります。ここで、レベル数は、出発の時点から駒を動かした手数を表します。以下、同じ要領で駒を一手ずつ動かしたときの到達可能な状態を調べま す。

レベル3は、三手動かしたときに到達可能な状態ですが、このうち左から三番目の状態は、最終目標の状態になっています。したがって、出発状態から初めて、最初に黄を下へ、次に青を右へ、最後に赤を上へ動かせば、最終目標の状態まで到達できることがわかります。
人工知能において広く現実に扱われるいろいろな問題は、この例ほど単純ではありませんが、探索アルゴリズムが基本技術 のひとつのキーワードであることは、理解できるでしょう。それぞれのレベルにおける選択肢の数がもっと増え、レベル数も増えてくると、やみくもに探索した のではあまりにも時間がかかってしまいますから、何らかの工夫を施さなければならないことは明らかです。
従来の探索アルゴリズムでは、人工知能の分野で頻繁に扱われる一般的な探索問題を、効率的に解くことができませんでした。この辺りの事情について、少し詳しく解説します。
従来のバックトラック法
バックトラックは常時ひとつの候補をヒューリスティック、つまり発見的に逐次探索する方法であり、これは、計算複雑性の 漸近的な上界を理論的に保証する場合、尤度の決め方とバックトラッキングの規則に特徴のあるファノアルゴリズム、あるいは、漸近的な計算複雑性の観点から は等価な、ジェリネックの考案によるスタックアルゴリズムを用いて実現されます。
このことは、ほかの分野ではあまり知られていませんが、誤り訂正の分野では、探索問題がある条件を満足すると、1ビッ トのデータを復号するのに要する計算量の期待値が定数のオーダーになることが証明されています。これは、つまり、探索問題が複雑になっても、問題の複雑さ に依存しないほとんど定数程度の計算量で高速に解決できるということを意味します。それゆえ、いくつかの分野において、誤り訂正符号の復号に用いられる シーケンシャルアルゴリズムすなわち逐次アルゴリズムを応用することが試みられました。たとえばIBM社のジェリネックは、ファノアルゴリズムの改良版で あるスタックアルゴリズムを考案して、音声認識に適用しました。その結果、現在の音声認識の基礎が固まりましたが、探索アルゴリズムそのものについては、 誤り訂正の分野で得られたほどの劇的な効果は得られませんでした。
ジェリネックの研究成果は、今日では有名な、隠れマルコフモデルに引き継がれました。
従来の動的計画法
DPとは動的計画法の略ですが、これは常時いくつかの候補を最尤的に並列探索する方法であり、計算複雑性の漸近的な上界を理論的に保証する場合、尤度の決め方に特徴のあるヴィタビアルゴリズムを用いて実現されます。
ヴィタビアルゴリズムの計算量の漸近的評価は、総当たり探索のそれと大差なく、ヴィタビアルゴリズムを難しい問題に適 用すると、手に負えないほど計算量が大きくなってしまいます。そこで、複雑な問題にヴィタビアルゴリズムを適用する場合には、問題を階層化して適切なサイ ズの部分問題にまで分解する必要があります。ところが、問題を階層化すると、たいていの場合、各階層において情報を捨てることになり、探索結果の信頼性が 低下してしまいうという致命的な欠点があります。 隠れマルコフモデルが普及し、音声認識の分野でもヴィタビアルゴリズムやファノアルゴリズムの尤度が使われるようになると、単に動的計画法とはいわず、 ヴィタビアルゴリズムと呼称することが一般的になりました。
新しいヴィタビアルゴリズム
探索アルゴリズムは人工知能における基幹技術のひとつですが、実は、人工知能に限らずさまざまな分野で使われています。 特に無線通信の分野において、誤り訂正符号の復号アルゴリズムにヴィタビアルゴリズムが用いられたものはヴィタビデコーダーとよばれ、たいへんポピュラー な技術です。ヴィタビデコーダーは、CS、ディジタルBS、地上波ディジタルTV放送など、現代のあらゆるディジタル通信系に使われます。
そうした広範な応用対象があるにもかかわらず、ヴィタビデコーダーはここ数十年にわたって、誤り訂正能力を犠牲にする ことなしには高速化が難しいと信じられ、進歩が停滞したままでした。実はデータシートには書かれていないことが多いのですが、FPGA用の従来のヴィタビ デコーダーのうち高速性をうたっているものは、通常のヴィタビデコーダーに比べて符号化利得が約0.2デシベル低くなっています。しかしながら、これまで 見逃されていた新しい最尤パス探索アルゴリズムを採用すれば、誤り訂正能力を犠牲にすることなく、しかも従来に比べてパスメモリを短くし回路を小規模にし たうえで、ヴィタビ・デコーダーを高速化できます。この発見は、実用的な誤り訂正復号技術に原理的変革をもたらしうる画期的な出来事といえます。
新しいファノアルゴリズム
従来、ファノアルゴリズムが誤り訂正以外で劇的な効果を発揮できない原因は、アルゴリズムの宿命的な問題であると信じら れていました。しかしその原因は、本当は、探索対象であるデータの確率的構造にあります。つまり、誤り訂正の用途では、探索対象のデータがほぼ等しい確率 で出現しますが、音声認識を代表とする一般的な問題では、個々の現象は等確率では出現しません。
ML-LABOが鈴木研究室の協力を受けて開発した新しい探索アルゴリズムは、一般的な探索問題においても、問題の複 雑さに依存しないほとんど定数程度の計算量で、高速に探索をおこなうことが可能です。この新しい探索アルゴリズムを使えば、人工知能の多くの分野で扱われ るような一般的な探索問題が、効率的に解けるようになります。
新しい探索アルゴリズムは、データが等しくない確率で出現する大規模な探索問題を効率的に解くことができるだけでな く、探索問題と学習問題を融合します。また、尤度の学習が進むにつれて、探索に要する計算量が小さくなるという特徴があります。これは、人間が、ある種の 探索問題を「経験」によって直感的に解決できるようになることと、よく似ています。このように、新しい探索アルゴリズムは探索問題を効率的に解けるだけで なく、機械学習に関する従来の研究資産から新しいアプリケーションを生み出す有望性を含んでいます。
解説:ロボットの心
ロボットに心はあるでしょうか? あるいは、ロボットに心があるとすれば、それはどのようなものでしょうか?
ロボットの語源は二十世紀初頭のチェコスロヴァキアの作家チャペックによる諷刺劇「ロッサムの万能ロボット」にあると いわれています。大衆的に想像されるロボットは、人が心をもつことの反対概念として存在し、たとえ形状は人に似ていても心は本物ではなく、ただ命令される がままに行動するオートマトン、つまり自動人形を意味します。
機械工学、電子工学と人工知能の境界にある現代のロボット工学においては、産業用ロボットも扱われており、ロボットは 必ずしも人に似た形状である必要はなく、心をもつ必要もありません。しかし人と機械のインターフェースという観点からは、たとえ機械の主性能に直接的な関 係はなくとも、機械がある程度親和感をよぶ形状を有し人間的な感情を備えているように見える方が操作しやすいとする考え方もあります。一方では、バイオ技 術が発達するにつれて生体の各々の部位を再現する試みが現実のものとなりつつあり、将来は有機的な脳を人造できる技術的可能性も皆無ではありません。この ように技術や倫理を含むいろいろな面でロボットと心に関する古典的な位置づけは、今日、修正する必要が生じています。
心理学や人工知能の分野ではしばしば、有限個の心の状態からなり状態遷移が外的または内的刺激によって引き起されるよ うな状態遷移図を用いて、心の無記憶モデルを表現します。チューリングは、記憶媒体としてのテープを備え状態遷移図にしたがって読み書きヘッドを制御する チューリング機械を考案し、これを用いて心の有記憶モデルを汎用的に表現することを試みました。実際の心理学において心の有記憶モデルを扱うことは熟練を 要します。この意味では、チューリング機械なる発想はむしろ人の心における形式的な計算および推論の機能が特化された現代のコンピューターに受け継がれた といえるでしょう。この意味では、コンピューターの物理的実体としてのハードウエアはロボットの脳に相当し、機能的実体としてのソフトウエアはロボットの 心に相当します。
心とは決定論的に動作するプログラムではなく、多数の神経単位からなる複雑系においてランダムにつくられる状態である とする見解があります。量子物理学においては、観測者の心の活動たる意識がひとつ以外の波動関数の崩壊を引き起し猫の生存と死亡を左右するというシュレ ディンガーの猫の例話が知られており、人工知能におけるロボットの心に関する観念論的解釈をいっそう複雑なものにしています。ただし、この種の議論をおこ なうときの予備知識として、ある記憶を保持するために必要な制約条件を満たすところの多数の量子の組合せからなる不確定状態のようなものは、ごく少数の記 述子からなる記憶系においても特には珍しくなく現れる、という事実は知っておく必要があります。
たとえば、論理式はnビット列、真理値はビット1の個数をnで割った値であり、論理演算はブール二元論理演算をビット ごとに適用したものであるとするとき、n=4、論理式xとyの真理値が共に0.5なる前提下で(x,y)の候補として(1100,1100)や (1100,1010)や(1100,0011)などが得られるので、含意x→yは1111や1011や0011などとなり真理値が一意には定まりませ ん。このように真理値既知の論理式すなわち知識に対し論理演算を適用すなわち推論をおこなっても真理値が一意に定まらないような論理系は通常のコンピュー ター上のブール論理系として構築でき、このことはロボットの心の多様性を合理的に理解する鍵となります。
生物である人の心と無生物であるロボットの心の違いは、単に記憶容量の大小や有機・非有機の別ではなく、未知の本質に 由来する何かであるとして、生物を真似たニューロコンピューターや遺伝アルゴリズムなどを導入することにより、自然界と似たような進化の原理に基づいて心 をつくりだそうとする研究もおこなわれています。
研究紹介:人工知能とロボット
人工知能とロボットの間には、密接な関係があります。融通のきかない機械の代表と考えられているロボットの能力を人並みに追いつかせることは、人工知能やロボット工学における最も重要な課題のひとつとなっています。
中央大学 理工学部には有名なロボットの研究者が集まっています。電気電子情報通信工学科の木下研究室、國井研究室、経営システム工学科の坂根研究室、精密工学科の 大隅研究室、梅田研究室、情報工学科の鈴木研究室において、それぞれの学問分野の視点から、ロボット関連の最先端の研究が進められています。現在、それぞ れの研究室が保有する多様な要素技術を結集することによって、ヒューマノイドロボットすなわち人型のロボットに関する未来構想を具体化することが検討され ています。 しかしながら、人工知能やロボット工学における最終目標は、「外見も思考も人とそっくりな人型ロボットを完成させること」だけにとどまっているわけではあ りません。歴史において人類は、動物の移動能力を特化することによって、人より速く走れる機械である自動車を完成させました。また、動物の飛行能力を特化 することによって、人が空を飛ぶための機械である飛行機を完成させました。同じように、コンピューターは人の計算能力を特化した機械であり、さらに人工知 能は、人の知性や推論能力を増幅するソフトウエア技術としてとらえることができます。この意味では、人工知能やロボットを支えるコンピューターとその周辺 技術は、未来におけるある時点から人の能力を凌駕することになるでしょう。
未来のコンピューターは、いったいどのような能力を備えるのでしょうか? また、人にとって、どのような存在となるの でしょうか? スタンリー・キューブリック監督がつくった映画「2001年宇宙の旅」には、多くの科学者や技術者が現実味を帯びていると感じているところ の、近未来のコンピューターHALが登場します。鈴木研究室では、そのような高性能のコンピューターを目標として、人工知能とその周辺分野におけるいろい ろな要素技術を研究・開発しています。
コンピューターは、単純計算については、既に人の能力を遥かに超えています。今後、人工知能技術が進歩し続ければ、知 的能力のかなりの部分について、人の能力に追いつき、いずれ追いこすことになるでしょう。人は、残念ながら、自身が思っているほど賢くはありません。「い いや、そんなことはない」と思う人は、以下の「解説: 確率的論理」を参照してみて下さい。
鈴木研究室は、ブール多値論理に基づいて統合された帰納および演繹推論を要素技術とする、先進的な知識のハンドリング 技術を保有しており、これについて日々研究をおこない、誰にでも扱える技術として熟成させつつあります。こうして蓄積された要素技術をもとにして、若い情 報処理技術者の卵は自らの創造力を最大限に発揮し、動的計画法や発見的探索法を高性能化したアルゴリズムを中心とする基礎研究や応用開発に、果敢に取り組 んでいます。
論理の一貫性を管理するプログラムへのリンク | |
---|---|
第一世代 | 上記プログラムの実行結果へのリンク |
第二世代 | 自然言語処理を付加した未来シナリオへのリンク |
第三世代 | 心理モデルを付加した未来シナリオへのリンク |
解説:確率的論理
薬の効果
ウイルスVに単独感染した人、ウイルスWに単独感染した人、ウイルスVとWに同時感染した人、のいずれにも、ある症状が必ず現れるとします。あなたは、新薬Mが病気予防に有効か否かを判定しなければなりません。
判定の根拠となるはずの臨床実験は、次のようにおこなわれたとします。200人を、100人ずつの班AとBに分け、A 班の人々には実薬Mを投与し、B班の人々には偽薬(主薬が配合されておらず外見上は区別のできない、心理的な効果を排除する目的で用いられる薬剤)を投与 しました。その結果、実薬Mを投与されたA班において、39人がウイルスV、40人がウイルスWに感染しました。したがって、実薬Mを投与されたA班にお けるウイルス Vへの感染率は39%、ウイルスWへの感染率は40%となります。
表D
(単位 人)
分類 | A班 | B班 | 計 |
---|---|---|---|
V感染 | 39 | 58 | 97 |
W感染 | 40 | 60 | 100 |
他方、偽薬を投与されたB班において、58人がウイルスV、60人がウイルスWに感染しました。したがって、偽薬を投与されたB班におけるウイルスVへの感染率は58%、ウイルスWへの感染率は60%となります。
この結果を見ますと、ウイルスVへの感染率については、新薬Mを使った場合の39%は、Mを使わなかった場合の 58%にくらべて19ポイントも低くなっています。また、ウイルスWへの感染率については、新薬Mを使った場合の40%は、Mを使わなかった場合の60% にくらべて20ポイントも低くなっています。
さて、あなたは、この結果に基づき新薬Mが病気予防に有効であると認めますか?
当たり前に見える例
この例Eにおいて、発症の状況は次表のようになります。
表E 詳細版
(単位 人)
分類 | A班 | B班 | 計 |
---|---|---|---|
V単独感染 | 10 | 38 | 48 |
W単独感染 | 11 | 40 | 51 |
同時感染 | 29 | 20 | 49 |
この例Eにおいて、発症の状況は次表のようになります。
表E 詳細版
(単位 人)
分類 | A班 | B班 | 計 |
---|---|---|---|
V単独感染 | 10 | 38 | 48 |
W単独感染 | 11 | 40 | 51 |
同時感染 | 29 | 20 | 49 |
発症 | 50 | 98 | 148 |
このように、発症率については、新薬Mを使った場合の50%は、Mを使わなかった場合の98%にくらべて48ポイント低くなっています。
したがって、もし例Eのような状況がおこったのだとすれば、新薬Mは確かに効果があるといえます。
意外に見える例
今度は、臨床実験において、次表のような例Fがおこったとしましょう。
表F
(単位 人)
分類 | A班 | B班 | 計 |
---|---|---|---|
V単独感染 | 37 | 3 | 40 |
W単独感染 | 38 | 5 | 43 |
同時感染 | 2 | 55 | 57 |
念のため、この例が、最初に与えられた条件すなわち表Dに矛盾しないことを確認しておきましょう。
まず、ウイルスVへの感染について確認しましょう。
表Gその1
(単位 人)
分類 | A班 | B班 | 計 |
---|---|---|---|
V単独感染 | 37 | 3 | 40 |
同時感染 | 2 | 55 | 57 |
V感染 | 39 | 58 | 97 |
最終行が、表Dの2行目に合致していることを、確認して下さい。
次に、ウイルスWへの感染について確認しましょう。
表Gその2
(単位 人)
分類 | A班 | B班 | 計 |
---|---|---|---|
W単独感染 | 38 | 5 | 43 |
同時感染 | 2 | 55 | 57 |
W感染 | 40 | 60 | 100 |
最終行が、表Dの3行目に合致していることを、確認して下さい。
表Fが、最初に与えられた条件すなわち表Dに矛盾しないことの確認作業は、以上で終わりました。
さて、例Fにおいては、発症の状況は次表Fのようになります。この表を見ればわかるように、発症率については、新薬M を使った場合の77%は、Mを使わなかった場合の63%にくらべて14ポイントも高くなってしまいました。したがって、もし例Fのような状況がおこったの だとすれば、新薬Mはむしろ毒ということになります。
表F 詳細版
(単位 人)
分類 | A班 | B班 | 計 |
---|---|---|---|
V単独感染 | 37 | 3 | 40 |
W単独感染 | 38 | 5 | 43 |
同時感染 | 2 | 55 | 57 |
発症 | 77 | 63 | 140 |
何がおこったかおわかりでしょうか? この問題の罠は、ウイルスVへの単独感染、ウイルスWへの単独感染、ウイルスVと Wへの同時感染、を正確に分類して考えなければいけなかったという点にあります。表Dのような調査は不十分であり、厳密には、表E詳細版や表F詳細版のよ うな調査をおこなわなければならないわけです。
多数決につられていく人の直観は意外に当てにならないことが、理解いただけたと思います。
研究紹介:コンピューターに物理現象を理解させる
九官鳥は人の言葉を真似ることができますが、人の言葉を理解しているわけではありません。このことから類推さ れるように、コンピューターが、ある物理現象をシミュレートできるからといって、その物理現象を理解できているとはいえません。視覚的に現実に近いという 意味で物理現象を美しく映像化する技術、すなわち、現在のテレビゲームや映画などが目ざしているコンピューターグラフィックス技術は、どちらかといえば九 官鳥が人の言葉をエレガントに真似る技術のようなものですが、これらが重要であることは確かです。しかし、コンピューターを積極的に活用していくには、こ れだけでは不十分であり、コンピューターに個々の物理現象の本質を「理解」させる必要があります。
これは、何か万能の設計原理が存在して、その設計原理を原理を使えばコンピューターにあらゆる物理現象を理解させるこ とができるといったような、単純な作業ではありません。自然言語を扱う際、文法的構造や慣用的表現をていねいに調べ、構文・意味解析機構を設計する必要が あるのと同様、物理現象をひとつひとつ調べ、コンピューター上の表現に直していく必要があります。
コンピューターがいったん物理現象を理解すると、単に物理現象を再現するだけでなく、条件をいろいろ変えてシミュレー トできるようになります。これは、高温・高圧の環境下で何がおこるかとか、この物理現象は微小重力下ではどうなるかといったことだけを意味するものではあ りません。ある物理現象の本質的な部分を人に正しく伝えるために、表現上、意図的にデフォルメを加えるといったこともできるようになります。コンピュー ターに物理現象を理解させることによって、本当の意味でのバーチャルリアリティが実現でき、新たな映像芸術が生まれる可能性へとつながっていきます。
修士課程の黒田君は、コンピューターグラフィックスの分野で扱われる多様な方法を網羅的に収集しつつ、物理現象をコン ピューター上で汎用的に記述する方法について研究しています。おもにばねと摩擦を用いて幾何学的に記述された環境において、物体の運動をシミュレートする いろいろなプログラムを作成しています。
飛行機とミサイル | 地底のピラミッド探検 | 複雑な環境における波 | 飛行機、箱、その他 | 蟹ロボットのクレーン |
---|---|---|---|---|
![]() |
![]() |
解説:特徴抽出
日常的な言葉の感覚では、ほかのものと違って特に目だつ点を特徴といい、これこれの作家の特徴は洗練された文 章にある、というような言回しをします。いま、いろいろな人種がまじっており身体的特徴を組み合せれば個体がわかるような状況にあるとき、組合せそのもの も一種の特徴と考えられます。このときの特徴とは、一様な他にくらべて特に目だつ点というよりも、多様な他から分離できる手がかりという程度の軽い意味合 いです。
特徴を取り出す操作を、特徴抽出といいます。工学的に実現されているパターン認識システムの多くは、特徴抽出と分類の二段階から成り立っています。
音声処理の分野では、パワースペクトル密度すなわちPSD、あるいは、それと同等なものによって表現された、周波数領 域における特徴が活用されます。不特定話者認識の用途には、できる限り個人差が消失するような特徴が使われ、他方、セキュリティの用途には、任意の特定話 者だけが受諾されるような特徴が使われます。
一般に、大量の数値データが与えられ、それらがいくつかの集りに分割できるとき、各々の集りに対して求めた何らかの統 計量は、その集りを代表する特徴となります。しかし実際には、このような特徴を見つける作業は熟練を要することに注意しなければなりません。たとえば、白 色背景に黒色で数字が手書きされた縦10、横10画素からなる二値画像を10カラムに縦切りし、カラムごとに(1)黒色画素の個数、(2)左に隣接する画 素と色が異なるような画素の個数、(3)隣接する8個の画素のうち3個以上が黒色であるような画素の個数、(4)黒色画素の連なりからなる領域の個数、 (5)最も上方に位置する黒色画素の縦座標 t、(6)これと、最も下方に位置する黒色画素の縦座標 b との差 t-b、(7)カラムにおける黒色画素の縦座標の平均 y と画像全体における黒色画素の縦座標の平均 Y との差 y-Y、からなる組をベクトル量子化などによって記号へと変換したのち、10カラムに対応する10記号からなる列を特徴として適切な分類をおこなえば、筆 者が不特定であっても良好な認識が実現できます。しかし、このような事実を見つけることは、たいへん難しい作業です。
画像にうつっている対象を汎用的に処理するにあたってディジタル画像データから直接取り出すことのできる特徴のひとつ は、色彩です。人と相性の良い情報処理を実現するには、色彩を単なるディジタルデータとして扱うのではなく、たとえば、光刺激を赤、緑、青に分解して感知 する人の視細胞と関連のある表色系として、アメリカの画家マンセルが考案した色相と明度と彩度からなる表色系に変換するなどの工夫をほどこす必要がありま す。
同じように、直線や低次の曲線を主成分とする線情報は、濃淡画像にうつっている対象の形状を特徴づける重要な基本要素 となります。線情報は、隣接画素間の輝度の変化を検出するラプラシアンオペレータ、あるいは、直線を検出するハフ変換などを用いて取り出せます。対象が図 形であれば、角の個数、辺の長さ、面積、重心などもしばしば形状特徴のひとつとして利用されます。
図形の幾何学的性質を扱うモルフォロジにおいては、たとえば、矩形なら対角線に当たるスケルトンを取り出したのち、部 分マッチングなどにより、画像にうつっている複数の物体の相互関係を定めます。この結果は画像理解などに活用されます。また、対象が図形というよりもテク スチャの場合は、画像の統計的および構造的性質を調べることによって高次の特徴を取り出す、ということをおこないます。
研究紹介:動作を読み取るコンピューター
腕の動作の認識
修士課程の宇都木君は、オプティカルフローとよばれている技術に改良を加えることによって、腕の動きを追跡するシステ ムを開発しました。このような基本技術を用意しておけば、人の腕に限らず、ある種の構造的な制約のもとで動くいろいろな物体の運動をコンピューターに取り 込めるようになります。
これは、カメラから入力した初期画像です。![]() |
これは、カメラから入力した初期画像です。![]() |
これは、カメラから入力した初期画像です。![]() |
輪郭を取り出すと、このようになります。![]() |
輪郭を取り出すと、このようになります。![]() |
輪郭を取り出すと、このようになります。![]() |
中指を端点、ひじ関節と肩関節を回転軸として、三角形状に領域分割します。![]() |
全点法による分布追跡をおこなうため、中指を端点、ひじ関節と肩関節を回転軸として長方形状に領域分割します。![]() |
中点法による分布追跡をおこなうため、中指を端点、ひじ関節と肩関節を回転軸として長方形状に領域分割します。![]() |
以後、オプティカルフローを計算して各領域の速度を求め、ひじ関節と肩関節の角度変化を追跡していきます。![]() |
以後、オプティカルフローを計算して各領域の速度を求め、ひじ関節と肩関節の角度変化を追跡していきます。![]() |
以後、オプティカルフローを計算して各領域の速度を求め、ひじ関節と肩関節の角度変化を追跡していきます。![]() |
100フレーム目では、追跡がうまく進んでいます。![]() |
100フレーム目では、追跡がうまく進んでいます。![]() |
100フレーム目では、追跡がうまく進んでいます。![]() |
前腕の運動がうまくとらえられず、200フレーム目までには、ひじ関節の角度に誤差が蓄積してしまいました。![]() |
全点法では、200フレーム目でも、前腕の運動がうまくとらえられています。![]() |
中点法では、200フレーム目でも、前腕の運動がうまくとらえられています。![]() |
300フレーム目では、誤差の影響が残ったままです。![]() |
300フレーム目になっても、誤差の影響は現れません。![]() |
300フレーム目になっても、誤差の影響は現れません。![]() |
全点法では、服を変えて同じような実験をしたら、上腕部が前腕部に引っ張られてしまいました。![]() |
中点法では、服を変えて同じような実験をしても、上腕部が前腕部に引っ張られません。![]() |
この技術が熟成し、動き追跡専用のチップが普及するようになると、ロボットなどにも手軽に搭載できるようになるでしょう。さらに、動きを追跡した結果得ら れたベクトルに対し、自然言語処理の一部である意味解析を適用することによって、コンピューターは対象物体の動きがもつ意味を理解できるようになります。 つまり、このように動いたら次はこう動くとか、この動きはこういうメッセージを伝えたがっているといったようなことです。そうするとロボットは汎用的に対 象物の動きを処理できるようになりますから、たとえば、人が放り投げたものをキャッチしたり、手話やジェスチャーを扱えるようになるでしょう。また、工事 現場の重機などに搭載したり、自動車や飛行機などに搭載すれば、安全対策に大きな力を発揮するでしょう。
解説:パターン認識
いくつかの「もの」が与えられ、それらが、何らかの意味で性質の同じ「もの」どうしからなるいくつかの集りに 分けられるとき、任意の「もの」をいずれかの集りへと分類する操作を、一般にパターン認識といいます。このとき、各々の集りをパターンといいます。状況に 応じて認識対象の分野名を頭に付け、何々認識というように限定してよぶ場合も多くあります。
音声処理の分野では、音声信号を適当な時間区間へと分け、各々の区間に対応する発音記号を出力する処理を、音声認識といいます。また、発声者の個人名を出力する処理を、話者認識といいます。
画像処理の分野では、画像の全体あるいは一部にうつっている物体の名前を出力する処理を、画像認識といいます。画像 は、CCDすなわち電荷結合素子カメラや、イメージスキャナなどから入力された画像の場合もあるし、何らかのセンサ出力が視覚化されたりコンピューターグ ラフィックスによって合成された人工的な画像の場合もあります。特に画像にうつっている図形の名前を出力する処理を、図形認識といいます。文字認識は図形 認識の特殊な場合に当たります。
パターン認識という言葉は、日常的な言葉の感覚からはいくらかずれがあるかもしれませんが、抽象的なデータ構造を対象 とする分野でも使われます。たとえば、画像処理におけるように画像にうつっている図形を直接的に認識し名前を出力するのではなく、幾何学的特徴をグラフ表 現したもののうえで図形の同型性を判別する処理のことも、パターン認識といいます。似たような言葉の感覚で電子回路基板の雛型もパターンとよばれ、できる 限り高密度な電子回路を設計するための要素技術としての、グラフ理論に基づくパターン認識は、高密度電子回路それ自身からなるコンピューターの助けを借り て大きく進歩しました。
知性の高い種は、必ずパターン認識も優れているのでしょうか? 生物学的な観点からは、パターン認識とは、下等から高等にいたるまであらゆる種が備える生存戦略上重要な能力のひとつである、と考えられています。個体 は、過去に経験したいろいろな現象に共通する性質を学習し、未来に経験するであろういろいろな現象の予測へと役だてています。こうしたパターン認識能力の 多くは、進化のプロセスにおいて自然淘汰の結果として組み込まれたものです。したがって、知性の高い種であるからといって必ずしもパターン認識能力が高い とは限りません。事実、渡り鳥がもつような卓越したパターン認識能力に支えられた大陸規模的な帰巣本能は、人にはありません。しかし一方では、知性の高い 種は、パターン認識を技術として活用することにたけていると思われます。たとえば、現代人が当然のように備えている数え上げ能力は、実は、パターン認識能 力を利用して後天的に学習されたものです。
近年、コンピューターを駆使してパターン認識を自動化しようとする試みが盛んですが、それと同時に、人が生来備えてい るはずのパターン認識能力を、有効に活用する道を探求し続けることもまた重要です。たとえば、心電図はパターン認識技術そのものの成果というわけではあり ませんが、人は、多数の症例と心電図のパターンを自己発見的に関連づけて学習することができ、この点で心電図には大きな意義があるといえます。また、構造 物をハンマーで叩いたときの振動の微妙な感触によって異常を知る技術は、現場でおおいに役だっていることも忘れてはなりません。心理および教育分野では、 表現が一面的にならざるをえない言語によっては分析が難しい人間関係の全体像を直観的に把握するため、しばしば人物を記号に直し、人間関係を矢印で図示す るという方法が使われます。パターン認識を自動化するということは、本質的には、これらの従来技術における人の判断をアルゴリズムに直して再現することに ほかなりません。
パターン認識とは、単に分類をさす言葉ではなく、人と情報機器の融和を示唆するキーワードといえます。
ところで、工学や心理学などにおいてパターン認識プロセスを記述するときに広く使われているモデルは、対象を特徴抽出 して特徴空間にうつしたのち、特徴空間のどのパターンに属するか分類するというものです。対象が正しいパターンに分類される相対度数を認識率といい、分類 方式の性能はこの認識率にかかっています。分類誤りをパターン認識プロセスにフィードバックし、パターン分類がより適切となるように改善することによって 認識率を次第に向上させることができ、この作業をパターン学習とよんでいます。
パターン認識装置の開発にあたって、以前は、専門の設計者が長年の経験と職人芸を駆使して特徴空間を設計するというこ とがおこなわれていました。しかし近年は、音声認識に代表されるように、大量のパターンを分類しなければならなかったり、認識装置を個々の使用者や環境に 合せて細かく調整する目的のため、パターン分類の作業をある程度自動化する必要に迫られています。したがって、パターン学習の技術は、現在たいへん重要と なっています。
パターン学習を実現する方法はいろいろと考案されていますが、そのひとつに神経回路網を利用するものがあります。神経 回路網とは、加重和としきい値判定を組み合せた多入力一出力のしきい値論理に基づいて汎用的に非線形関数を近似するシステムです。単なるしきい値論理との 違いは、いったん希望の入出力関係が与えられれば、バックプロパゲーションすなわち誤差逆伝播法などを利用して加重係数を自動的に調整することによって、 任意の入出力関係に適応できるという点にあります。神経回路網は、多入力を処理する原理上、パターンを自然な形で扱うことができ、適応能力もあることか ら、いろいろな類似方式と共にパターン学習に広く活用されています。
特徴空間上の分布が、ある種の近似的な意味で、いくつかの線形の仕切りによってパターンに分離できる場合、神経回路網 は有効に機能することができます。しかし、特徴空間上の分布がパターンごとに局在化してはおらず、パターンの山が複雑に入り組んでいるような場合、つまり 八ヶ岳のようになっている場合には、線形の仕切りによる分離が難しいことから、神経回路網の学習によって希望の入出力関係を達成することは困難となりま す。神経回路網であれ、そのほかの方式であれ、いくつかのパラメーターを含むある特定の構造のもとでパターンへの分類を記述するどのような方式も、一般 に、その構造によっては表現しきれないような複雑な入出力関係が与えられた途端に、学習は難しくなってしまいます。複雑な入出力関係を表現するには原理上 はパラメーターの個数を増やせばよいわけですが、しかし分類誤りが許容範囲にあることを保証するのに必要なパラメーターの個数が極端に多くなるような状況 のもとでは、別の方法を考えなければなりません。それは、いったい、どのような方法でしょうか?
特徴空間において、パターン認識の対象となるいろいろな入力のうち代表的なものをいくつか選びだし、これらの代表入力 と共にパターンの名前を記録しておきます。これらの代表入力は、テンプレートといいます。任意に与えられた入力に対し、あらゆるテンプレートのうち最も近 いテンプレートのパターン名を出力するパターン認識方式をテンプレートマッチングといい、この方式は、一定の構造のもとでパラメーターを調整する一連の方 式と対比されます。テンプレートマッチングを採用する場合、どのような特徴空間や距離を設計するかだけでなく、どのようなテンプレートを選ぶかがたいへん 重要となります。
各々のパターンに対応するテンプレートはひとつとは限らず、いくつか用意されていてもよく、異なるパターン間の境界付 近に複数のテンプレートを登録することによって分類誤りを抑制できます。また、将来、パターンをさらに細分化しなければならない状況になっても、新たなテ ンプレートを追加することによって柔軟に対処できます。正しい分類となるまでテンプレートを自動的に追加しつつ、パターン名と共に記録するという要領で、 パターン学習がおこなわれます。
鈴木研究室には、パターン間に潜む類似関係を自己組織化的に学習するシステムを設計するための、基本技術があります。
研究紹介:顔を見分けるコンピューター
顔領域の抽出
水谷君は卒業研究において、雑多な背景から人の顔だけを抽出するプログラムを開発しました。このプログラムは、顔の認識に利用されます。
研究紹介:顔を見分けるコンピューター
初期画像には、人の顔と雑多な背景がうつっています。 | ![]() |
初期画像からペールオレンジ領域を取り出して、ペールオレンジ領域を白、それ以外を黒とします。 | ![]() ![]() |
白点の分布を調べて、白点の集中している部分を探し、初期画像から、顔とその大まかな周辺からなる画像を得ます。 | ![]() |
顔の周辺に微分性のフィルターをかけて、何通りかのしきい値で判定し、変化の激しい点を探します。 | ![]() ![]() ![]() |
さらに、輪郭と思われる点を探します。 | ![]() |
以上を組み合せ、輪郭と思われる点を鮮明にします。 | ![]() |
頭髪の影響を受けている、顔面の上半分を取り出します。 | ![]() |
頭髪の影響を受けていない、顔面の下半分を取り出します。こうして、雑多な背景から顔だけが取り出せました。 | ![]() |
この種の研究は一見したところ地味に思われてしまいがちですが、現実の画像処理は基本的処理の段階でいろいろな問題を抱 えているものであり、こういった問題はひとつひとつたんねんに解決していく必要があります。どのようなことに関してもそうですが、基本的な問題をきちんと 解決するノウハウを蓄積した結果として、応用的に高度な問題が解決できるようになります。
鈴木研究室には、基本技術が数多く蓄積されており、いろいろな応用問題について研究したり複雑な装置を開発できる態勢が整っています。
顔認識システムの開発
修士課程の山下君は、人の顔を見分けるシステムを、セキュリティ用途の観点から研究しました。
既存の顔認識システムの多くは表情の影響を受けないことを特長としてうたっていますが、このことを否定的に解釈すれ ば、化粧や日焼けなどに対してあまり鋭敏ではないことを意味します。顔認識システムをセキュリティに利用できるようにするためには、顔の造作の微妙な変化 まで見逃してはなりません。
セキュリティ用途の場合、本人へのなりすましを厳しく排除する必要がありますが、そうすると、本人であるにもかかわら ず拒否する可能性も増えてしまいます。これは、端的にいえば、双子を区別するかしないかという運用上の問題にほかなりません。一方、優れたセキュリティ装 置を設計するという立場からは、もし双子を区別する必要があるなら機械をそのように厳しく設定でき、もし双子を区別しないほうがよいのであれば機械を甘く 設定できるのがよいわけです。つまり、利用目的に応じて本人識別のしきい値をいつでも自由に調整できる機械がベストであり、そのためには顔認識システム は、顔の造作の微妙な変化を検出できる能力を、最初から備えていなければなりません。
ところで、私たちはしばしば「目は口ほどにものをいう」といいますし、口をマスクで覆っていても目の付近が露出してい ればモンタージュ写真などをおこせます。山下君はこの事実に注目して、実際に顔認識システムを作成し、目の付近だけを取り出してテンプレートマッチングを 適用したとき、どの程度まで顔の認識が可能かを調べてみました。その結果、パラメーターを適切に設定しさえすれば、本人を正しく認識する相対度数は7割な いし8割となることがわかりました。
実際には、顔は目以外の部品からもできていますし、それらの相対配置も人によって大きく異なります。目以外の部品に注目した特徴抽出法を組み合せることによって、いずれは、セキュリティの用途に使えるような頑健な顔認識システムが実現できるでしょう。
解説:画像処理
画像処理とは?
ディジタル画像は、すべての画素をランダムアクセス可能な主記憶に保存する都合上、常に大容量メモリを必要とします。 ディジタル画像処理を導入するうえで重要な見積りとして、たとえば縦256、横256つまり全体で65,536画素からなる二値画像は65,536ビット を必要とし、同じ画素数の256値つまり2の8乗とおりの濃淡値をとる濃淡画像は65,536バイトを必要とし、さらに、三原色表現されたカラー画像は 65,536バイトの三倍つまり196,608バイトを必要とします。しかし最近ではディジタル機器のコストパフォーマンスが向上し、昔に比べて安い費用 で大容量メモリを購入できるようになっていますので、単に画像処理といえば、ほとんどの場合ディジタル画像処理を意味します。
画像処理の分野では、標本化、量子化、正規化、圧縮、復元、セグメント化、画像理解、再構成、エンハンスなどのいろいろな問題が扱われますが、これらは互いに密接に関連しています。
ディジタル画像処理を導入するおもな目的のひとつは、写真に対する加工やアナログ機器における走査信号の処理を、パソ コン上でも運用可能な手軽なソフトウエア処理へと置き換えることにあります。たとえば、すべての画素に関する輝度の最大値と最小値の比をコントラストとい いますが、このコントラストを大きくとれば画像全体がめりはりの利いた雰囲気になります。また、すべての画素に関する輝度の平均の明るさをブライトネスと いいますが、このブライトネスを大きくとれば画像全体が白っぽくなります。さらに、写真の感光材料の特性曲線における直線部分の傾斜をガンマといいます が、ディジタル画像の各々の画素の輝度を仮想的に写真の感光に見たててガンマ値を変えれば、陰影を変えることができます。ディスプレイ画面を見ながら対話 的にこれらのパラメーターを調整することによって、色相を保存したままで、かなりの画質改善がおこなえます。
すべての画素に対して一斉にほどこす処理には、ほかにも、階調の変更、あるいは、シェーディングすなわち陰影処理があり、これらはコンピューターグラフィックスと深い関連があります。
二次元の画像データを周波数領域において処理する方法として、「ぼかし」すなわち積分、エッジ強調すなわち微分、メ ディアンフィルタなどがありますが、これらは各々の画素とその周辺画素に注目しつつ逐次にフィルタを適用する形で実現されます。周波数領域において汎用的 な解析や加工をおこなう場合、二次元の離散的データを周波数領域に変換する方法として、通常の二次元フーリエ変換のほかに、ウォルシュ変換、アダマール変 換、離散的余弦変換などが利用されます。一般に周波数領域における処理は膨大な計算時間を必要としますが、光学系を併用して高速処理を実現する光計算の分 野もあります。
一方、処理対象が幾何学的な形状の場合は、直接的に二次元画像に対する処理、つまり空間領域における処理をおこないま す。たとえばハフ変換は強力な直線検出法として知られており、これを利用すれば、線素からなる任意の形状を検出することができます。この種の幾何学的処理 は、画像認識などに活用されています。
静止画像の圧縮は、ノイズに近い高周波成分を削除したり、ベクトル量子化を利用するなどの方法によって実現しますが、 ほかには、画像中の自己相似性を利用する方法も提案されています。時間が連続な多数の静止画像から構成される動画像を圧縮するには、一時刻過去の画像に対 する現在画像の差分に注目する方法などが用いられます。
ディジタル機器の発達は目覚しく、最近では動画像処理も特異な技術ではなくなっており、家庭用のテレビ、ビデオ機器などにもノイズ除去や画質改善の目的で人々の知らないうちにとり入れられています。
医用画像
医用画像技術は、コンピューターを駆使した画像処理技術に支えられて、たえず進歩し続けています。
人体を透過するエックス線は、1895年にドイツの物理学者レントゲンによって発見されました。よく知られているよう に、レントゲンはノーベル賞の第一回受賞者です。エックス線の実体は、ガンマ線との境界が不明確な、10のマイナス12乗ないしマイナス8乗メートル程度 の波長の電磁波です。心臓と肋骨と空気のエックス線透過率は互いに大きく異なるので、胸部内は単純なエックス線撮影によって観察できます。一方、胃や大腸 などの消化器はいずれもエックス線を透過しやすく陰影が現れにくいので、エックス線が遮断される硫酸バリウムを主成分とした造影剤を消化器内に注入するこ とによって、癌などが欠けとしてうつるよう工夫しています。
仮に可視光線を表面が凸状の物体に当て、その背面に置いたスクリーンにうつる影をコンピューターに入力すれば、多方向 から撮った影の共通部分としてもとの物体の形状が復元できるでしょう。可視光線を透過性のある電磁波に置き換え、表面が凸状の物体を、透過性が不均一な任 意物体へと置き換えて類推すれば、多方向から撮影した濃淡のある影を積分した結果として物体内の濃淡情報が得られことがわかります。この原理に基づき、 エックス線を用いて人体の断面を回転走査することにより濃淡情報を得る方法は、コンピューター断層撮影すなわちCTとよばれ、1971 年にイギリスの技術者ハウンズフィールドによって、最初は、エックス線を透過しにくい頭蓋骨で覆われた脳の検査用として実用化されました。平行ビームを用 いたCTの原理に関する研究に始まり、現在では、スパイラルあるいはヘリカル高速走査の時代に入っています。
一方、人体内部の形態的情報というよりも生理学的および生化学的情報を得るには、ラジオアイソトープ、つまり放射性同 位体が有効です。最初の人工ラジオアイソトープは1934年にフランスの物理学者ジョリオキュリー夫妻によってつくりだされました。以後、医療への応用が 盛んに研究され始め、二十世紀なかばには核医学の分野が確立されました。人体に注入したラジオアイソトープが発生する放射線を特種なカメラで撮影してコン ピューターに入力し、画像を構成します。ガリウムは腫瘍、タリウムは心臓に集中するというようにラジオアイソトープの種類に応じた集中特性があるので、ラ ジオアイソトープを適切に使い分けることによって、たとえば癌の骨への転移を全身から一度に検出できます。
磁気共鳴断層撮影すなわちMRIは、人体に磁気を加えて、水を構成する水素原子の共鳴のようすをコンピューターに入力 し、人体の断面図を構成します。被爆の心配はありませんが、撮影に長時間を要するという欠点があります。そこで、新しい出血の状態を緊急に知りたい場合は 放射線を利用し、病巣の性質を詳しく知りたい場合はMRIを利用するというぐあいに、適宜使い分けがなされています。
被爆することなく人体の断面図を得るには、ほかにも超音波の反射波を利用する方法があります。原理上画質は荒いのです が、たいへん手軽なため、腹部や胎児の検査に利用されています。最近は、断層撮影と似たような原理に基づいて三次元的に画像を構成する方式も実用化されて おり、画質は飛躍的に向上しつつあります。
このように、可視光線以外を利用する医用画像技術は、たいへん進歩しています。ところが意外なことに、可視光線を利用 した医用画像技術は、あまり進歩していません。たとえば、コンピューター断層撮影の技術がこれほど進歩しているにもかかわらず、2台のカメラを用いた立体 視の技術は、まだ確立されていません。せいぜいモアレ縞の光を背中にあてて、脊柱の曲がり具合を調べる程度です。歯学分野では、歯の立体的形状を瞬時に採 取できる装置への需要がありますが、現在のところ歯の形状を調べるには、手間をかけて型取りするしか方法がありません。
研究紹介:ものを立体的に見るコンピューター
鈴木高彦君は、卒業研究において、ステレオカメラ、つまり2台のカメラからから物体の三次元的形状を取り込むためのプログラムを研究・開発しました。
![]() ![]() |
左右のカメラから、同一人物の画像2枚を入力します。 |
左右の画像において同じ高さの水平線を走査しつつ動的計画法を利用して対応点を探し、三角測量の原理により距離情報を得ます。 | |
![]() |
近い点の輝度を明るくとり、遠い点の輝度を暗くとると、単純エックス線撮影のような画像が得られます。 |
![]() ![]() ![]() ![]() |
各点の距離情報からメッシュをおこし、緩やかな曲面を貼りつけます。 |
![]() |
すると、立体的な頭部が復元されます。 |
|
いろいろな角度から見た射影を作成します。 |
このシステムは、セキュリティの用途のため、頭部の形状を立体的に取り込む目的で開発していますが、一般的には、カメラにうつった環境の立体的情報を取り込めるわけですから、いろいろな応用が考えられます。たとえば、歯学分野では、歯の型取りに使えます。
この技術を洗練してユニット化すれば、将来は、コンピューターに画像を取り込むための汎用的な装置として活用できるでしょう。
解説:音声処理
フィルタによる雑音除去、イコライザによる特定周波数帯域の増強や削減、声紋やスペクトログラムを用いた音声分析、話速変換、話者変換、話者認識、音声認識、音声合成などのように音声信号を加工する操作を、広く音声処理とよんでいます。
音声処理は伝統的には信号処理の一部としてとらえることができ、おもにアナログ電気回路を用いた一次元ないし数次元の 連続的信号を処理するための数学理論に基づいて発展しました。これとは対照的に、現代の音声処理は、アナログ電気回路をシミュレートするディジタル電子回 路上の離散的データの高速処理問題としてとらえられます。したがって、最新の音声処理技術を習得するには、伝統的な信号処理の理論を知るだけでなく、実際 のハードウエア構成を念頭においたソフトウエア設計技術にも習熟しなければなりません。
音声処理の方法はいろいろなものが考案されていますが、多くは周波数領域における解析に基づいています。音声信号を、 定常とみなせる時間区間、これは経験的に16ミリ秒以上程度ですが、そのような時間区間に分け、各々の区間に対してフーリエ変換を適用することにより、パ ワースペクトル密度すなわちPSDの時間系列が得られます。同等な方法として、信号を自己回帰モデルに当てはめて係数を求めることによってもPSDが描け ます。また、高速かつ実用的なスペクトル解析法として、パーコール、つまり偏自己相関方式が普及しています。
世の中に知られている汎用的な周波数解析法は、PSDだけではありません。振動解析の分野で使われるエネルギースペク トル密度すなわちESDも有用です。調和振動子に信号を加えると特定の周波数で大きく振動しますが、エネルギー値の大きな順にそれらの周波数を取り出して いくことにより、数本の線からなるESDが描けます。ESDは特に高周波に対して鋭敏であり、時間区間はPSDとは対照的に短め、これは経験的に16ミリ 秒以下程度ですが、そのような時間区間にとる必要があります。

解剖学的には、人の内耳を構成する蝸牛管は多数の有毛細胞の配列された管が渦巻いたものであり、鼓膜から伝わる振動の 各々の周波数成分に応じて、固有の位置にある有毛細胞が刺激されます。この機構は、人の聴覚が音声を周波数領域において処理していることの有力な証拠とな るだけでなく、逆に、人が発する音声はそのような聴覚機構が処理しやすいものに淘汰されている可能性も示唆しています。
音声認識の場合、周波数領域における表現は音節の記号列に変換され、さらに音節の記号列は単語へと変換されます。変換 方式はいろいろと研究され実用化されていますが、総合的な性能の良し悪しは結局のところ、多様な発音から文字間に相関のある文字列への対応関係を記録した 辞書の出来ぐあいに依存しています。
音声合成の場合は逆向きに、文字列を音声信号へと変換する辞書が重要です。現在では音声合成チップやソフトウエアが普 及していますが、抑揚が機械的で不自然という問題が残っています。この問題を解決するため、「対話システム」の応用の一環として、感情を表現する心理モデ ルを導入することを検討しています。
実用化にあたって辞書に含めなければならない音節はきわめて多数におよぶことから、辞書を利用した変換の問題は、事実 上、高速探索の問題であるともいえます。高速探索法のひとつである隠れマルコフモデルを利用して英語を認識する場合、特定話者に関し、二千単語からなる辞 書のもとでの文字当りの誤り率は2ないし3%程度、二万単語なら4ないし6%程度といわれていますが、これらの数値は話者や環境に大きく依存します。
解説:歯学分野との連携
歯科学分野で扱われる口腔関係の話題と、音声合成、認識との間には、密接な関係があります。平成13年度科学 研究費助成 一般研究(C)を契機として、岩手医科大学 歯学部 小児歯科学講座 齋藤博士と共同で「咬合状態・自律神経系・歯ぎしりの小児対象調査と計算機支援解析による因果関係の解明」を試みています。
従来、歯ぎしりの原因は、単に噛み合せの異常にあると考えられていました。しかし最近では、精神的ストレスが自律神経 系に影響を及ぼし、歯ぎしりの原因のひとつとなっている可能性が疑われています。精神的ストレスが増えつつある現代社会において、噛み合せと自律神経系と 歯ぎしりの間にある因果関係を解明することは、いろいろな意味で重要です。そこで、多数の小児被験者の協力を通じて、この課題に取り組んでいます。小さい 子供の口は成長と共に徐々に変化していきますので、長期間にわたり成長記録をとり続けることによって、大人からだけでは得られにくい、さまざまな知見を得 ることができます。
このプロジェクトにおける技術上のポイントのひとつは、自律神経系の状態を瞳孔反応によって定量化することにありま す。目が光などの刺激を受けたとき、瞳孔すなわち黒目の部分の面積が広くなったり狭くなったりしますが、この変化のことを瞳孔反応といいます。瞳孔反応 は、目に対する直接的な光刺激だけでなく、たとえば痛みを感じたときや感情の起伏などによってもおこり、自律神経系の状態を反映するといわれています。
データを収集するにあたっては、被験者がギュっと歯を食いしばったときの瞳孔反応を計測すると共に、顎の運動、筋電 図、噛み合せの接触面積、噛み合せの圧力などを同時計測します。また、上下の歯の型を採取し、高精度レーザー変位計によって噛み合せ面の形状を計測しま す。これらのデータをコンピューターに入力し、いろいろな方法を用いて解析することによって、噛み合せ、自律神経系、歯ぎしりの間にある因果関係を探りだ します。
このプロジェクトにおいて、鈴木研究室の技術はどのように活用されるのでしょうか? 第一に、この種の研究をおこなうときに従来用いられてきたさまざまな多変量解析法は、原因となる要素の間に何らかの関連性があるという事実は明らかにして くれるものの、因果関係を指摘することまではできませんでした。かわりに多次元ブール論理を活用して、複雑な事象系に潜む微妙な因果関係を抽出することを 試みます。
第二に、現在のところ、歯の形状を調べるには、いったん歯の型を採取したのち、これを高精度レーザー変位計によって計 測するということをおこなっています。しかし、もし超小型のステレオカメラを用いて瞬時に歯の三次元形状が精密に計測できるようになれば、研究の用途だけ でなく、実際の治療においても大いに役だつことでしょう。
第三に、口や歯の形状と、音声合成および認識との間には、密接な関係があります。母音の発声機構は解明しつくされてい るのですが、これとは対照的に、変動の激しい高周波を多く含む子音の発声機構には未知の部分が多く残されています。しかし、今後、エネルギースペクトル密 度ESDを活用した解析法により、子音の発声機構が解明できるかもしれません。また、ESDを心電図などのように活用することによって、口や歯の病的な状 況を診断するという技術的な可能性も、今後、検討していく必要があります。
研究紹介:音を聞き分けるコンピューター
エネルギースペクトル密度ESDによる信号の微細識別
連続信号をディジタル的に処理する現代のさまざまな高速処理系は、過渡的で高周波成分を多く含むような、取り扱いの難し い信号に対処できることが要求されます。フーリエ変換を基盤として完成された伝統的なスペクトル解析法はたいへん有用であり、今後も広く利用され続けてい くに違いありませんが、ひとつのさし迫った問題として、最近のようにいろいろな分野で高速処理が要求される状況においては、フーリエ解析が適用できるため の理想的な条件は必ずしも満たされていません。
実用的には、ケプストラムやウェーブレットなどのように、いろいろと工夫されたスペクトル解析法が提案されており、ど の方法もある程度は実際に役だっています。しかしいずれも方法にも、原理上、観測時間や定常区間の有限性やに基づく周波数分解能の限界がありますので、こ れを超えた解析性能を期待することはできません。
標本化周期と周波数分解能との間にあるトレードオフを克服するためには、弱いエネルギー帯域付近を犠牲にするかわり に、強いエネルギー帯域付近の周波数分解能を集中的に改善するような線スペクトルの解析法が必要です。もしそのような解析法が確立できれば、信号処理や線 形制御用の各種システムの高速応答特性を一律に改善することができるでしょう。そこで、鈴木研究室では、伝統的なフィルターの計算機支援設計法を参考にし つつ、周波数分解能が操作できるような新しいフィルターの計算機支援設計法を確立することを目ざしており、この技術を音声認識や高速サーボ機構へ応用した いと考えています。
可能性のあるひとつの解決策は、周波数分解を等間隔ではなく適切にデフォルメするというものです。具体的には、限られ た分野で昔から使われてきた「線」スペクトル解析法を、現代のディジタル処理の観点から拡張的に応用してみるということをおこなっています。これによっ て、単に特定分野の装置を改良を目ざすのではなく、観測時間や定常区間の有限性に基づく周波数分解能の限界を克服するという根源的な問題に取り組んでいま す。
その一環として修士課程の大條君は、元の信号、PSD、ESDを三つ同時に表示するウィンドウズ系オペレーティングシ ステム上のアプリケーションソフトウエアを開発し、「そなぐらふ」と名づけました。これは、PSDを表示する一般的なスペクトル解析器の代わりとなるもの であり、音声信号に限らずいろいろな一次元信号を解析することができます。
(「ぱ」の解析結果)

また、実際にこのソフトウエアを用いて、日本語の「あ」から始まる単音節69個が発音された音声信号を解析しました。普及しているPSDに比べて、新たに導入したESDは、音声信号の特徴を良好にとらえています。
大條君は、特に子音について、どちらかといえば従来の言語学的観点からではなく、新たな解析の道具を用いた技術的観点 から検討し直し、従来知られていなかったさまざまな新しい知見を得ました。彼の研究成果は、今後の音声認識および合成の技術の発展に大きく寄与することで しょう。また、開発されたスペクトル解析ツールは、音声信号に限らず広く一般の信号の解析に利用できますので、従来のPSDでは視覚化できなかったいろい ろな性質がしだいに明らかにされていくでしょう。
ところで、市販されている音声認識ソフトウエアの認識率は92ないし98パーセント程度であり、一説には購入者の半数 が3ヶ月以内に使用しなくなるとも言われています。真の意味での実用化を目ざすには、優れた音声解析の要素技術を開発する必要があります。現在、鈴木研究 室は、次世代の高性能音声認識システムを実現するために、ESDを中心とする革新的な要素技術を固めています。
研究紹介:読唇
安達君は、卒業研究において、人の唇を読みとる、つまり読唇術をおこなうプログラムを開発しました。「いんざい」、「ふなばし」、「まつど」、「のだ」、「かしわ」が認識できるかどうか試してみた結果、90ないし98パーセントは正しく認識されました。
![]() |
「まつど」と発音したときの映像です。 |
![]() |
口唇の動きを取り出した映像です。 |
読唇術は環境における雑音の影響を受けませんので、この読唇システムと音声認識を併用することによって、将来は高い認識率を達成することができるようになるでしょう。
解説:自然言語処理
人が日常生活で用いている言語を自然言語といい、エスペラントやコンピューター言語のように人がつくりだした 言語を人工言語といいます。コンピューターが、自然言語によって表現された文章から情報を取り出す目的で自然言語を構文解析したり意味解析することを、自 然言語処理といいます。逆に、コンピューターが内部にもっている情報から自然言語の文章を生成することを自然言語生成といい、広い意味ではこれも自然言語 処理に分類されます。もし機械が自然言語処理の機能を備えれば、その機械を人と会話するような感覚で操作できるようになり、たいへん便利です。
自然言語処理を実現するには、自然言語を構成する言語要素からコンピューター内言語を構成する言語要素への変換規則を どのような形式で表現するか定めたうえで、現実の用法や慣用表現を隈なく調査しデータベースを構築する必要があります。このデータベースを辞書といいま す。変換規則の表現形式の決定と辞書の作成にあたっては、言語学にかかわる分野で蓄積されてきた豊富な知識が役だちます。たとえば、イギリスのパーマーに よる、動詞と関連づけた品詞または品詞句の慣用的組合せに関する分類の成果は、同じイギリスのホーンビーらの編纂による英英辞典へと継承されましたが、こ の種の研究成果は語の配置の型をプログラムに直すときにそのまま利用できます。また、アメリカのチョムスキーによる、多様な自然言語を想定した生成文法理 論は、世界における自然言語処理の研究を強力に牽引してきました。
自然言語処理における最大の困難は、言語間の変換の多義性にあるといわれています。自然言語処理の分野ではコンピュー ターに自然言語を理解させようとする自然言語理解が研究されており、これがある程度実用の域に達すれば、変換の多義性は意味レベルで効果的に排除できるよ うになると期待されています。
一方、コンピューターが人の操る自然言語を真の意味で「理解」できるかどうかに関し、コンピューターは心をもちうるか 否かという人工知能における究極の課題と相まって、さまざまな分野の人々を巻き込みつつ機会あるごとに議論されているようです。ひとつには、チューリング 検査を導入し、自然言語を用いてある仕事を機械に指示したとき機械が人と何ら変りなくその仕事を遂行できたなら機械は自然言語を理解できたとみなすデカル ト的な方法論があります。コンピューターに擬似的な人格のようなものを与え、自然言語を使って人とコンピューターの間の情報交換をおこなう、いわゆる対話 システムは、チューリング検査に合格することを最終目標としています。この方法論に沿った実際的な分野でよばれるところの自然言語理解とは、自然言語によ る表現からデータベースの一種である意味ネットワークへの変換を意味します。
自然言語からコンピューター内言語への変換および逆変換を扱う自然言語処理の終極にあるものは、機械が人と人の間の知 的インターフェースを担う機械翻訳の技術です。文化背景の異なる多言語間における形態論的および構文論的言語要素の変換には、宿命的に多義性がつきまとい ます。そこで、ある言語を、いったん意味ネットワークなどの形で表現される普遍性の高い中間言語に変換し、さらに目的言語へと再変換する汎用的な機械翻訳 の方式が研究されています。
ワードプロセッサに付属している文書校正や例文生成などの文書作成支援機能、また、ウェブブラウザに付属している簡易翻訳器は、自然言語処理の応用製品です。
研究紹介:雑談するコンピューター
対話システムの開発
自然言語処理は、構文解析と意味解析の二つの要素技術に分けられます。中村江美子さんは卒業研究において、構文解析を中 心とする自然言語処理法を学んだうえで、現実に日常生活における会話のパターンを収集して解析し、十歳程度の子供の知能を想定した日常会話をおこなう対話 システムを開発しました。
このような対話システムを研究することの目的は、単なるアミューズメント用ということではなく、コンピューターが人と の自然な会話を通じて、その人の知識や考えを収集できるようにすることにあります。対話システムの技術が確立されると、たとえばコンピューターの操作に不 慣れな人も、コンピューターとの対話によって特には意識することなく操作ができるようになり、たいへん便利です。最先端の世界では、ともすれば先進的なシ ステムのみに興味が集中しがちですが、一方では、できる限り多くの人々が容易に扱えるような情報処理の方法をひとつひとつ開拓して世の中に広めていくこと もまた、情報工学の重要な使命です。

コンピューターが、よりいっそう自然に対話できるようにするためには、心理学的な知見とともに、感性情報処理の諸技術を導入する必要があります。
解説:感性情報処理
狭義には感覚器官が外界からの刺激に応じて視覚、聴覚、嗅覚、味覚、触覚などの感覚を生じる性質を感性、英語 でいえば sensitivity といい、広い意味ではこれらの感覚と関連づけられる心理のひとつの側面を感性、英語でいえば sensibility といいます。また、人の感性がかかわる情報をコンピューターによって処理することを、広く感性情報処理とよんでいます。感性情報処理の分野自身が言葉の ニュアンスを大事にしていることから、「感性情報処理」における「感性」は英語でも読み方どおり kansei と表記されますが、もし既存の英単語を当てはめるのであれば、意味の一般的な sensibility が相当します。
哲学的、文学的、芸術的観点から論じられる感性の概念は広範かつ深遠なものですが、工学において感性情報処理分野が扱 う対象は、心理に影響を及ぼす感性的な情報に限られており、ヒューマンインターフェース、マルチメディア、人間工学などとの関連があります。具体的には、 配色や造形にかかわる視覚情報、音響や言語にかかわる聴覚情報などが対象となります。
感性情報を定量化する場合、一対比較法などによって対象の性質を心理学的に測定したのち、多変量解析における多次元尺 度法や因子分析法などを適用することがおこなわれます。また、定量化が難しい情報は、感性を表す言語や絵図を用いて定性的に表現されます。言語や絵図は主 観的な感覚や感情を反映するので、状況によっては数量よりも的確に感性情報を表現できる場合があります。
従来、人の感性をとり入れつつ工業製品や建物の設計などをおこなう感性工学とよばれる分野がありますが、種々の設計がコンピューターの助けを借りておこなわれる現在の情報処理環境においては、両者の境界は明確ではありません。
感性情報処理という概念は理解されにくいのですが、感性情報処理の概念を端的に示すひとつの例について考えてみましょ う。今日の印刷業界では、DTPシステムを利用してディジタル画像データを作成し入稿することは、日常的になっています。専門知識を持たない人はしばし ば、印刷業者に、ディジタル画像をありのまま印刷して欲しいと依頼することがあります。しかしこの依頼には、記号列にしか過ぎないディジタル画像データか ら物理的実体としてのインクへの変換規則が含まれておらず、実質的には意味がありません。
このような問題に対する解決の糸口として、たとえば、任意に与えられた灰色Gの感性的な黒色含有率を調べるには、どう すればよいのでしょうか? ある被験者にGを見せて黒色含有率を心の感じるままに答えてもらえば、その被験者による主観的な定量化がおこなえます。また、個人差を取り除くには、たと えば多数の被験者にGを見せて白色と黒色のいずれに感じられるかを回答してもらい、黒色と回答した人の数を被験者総数で割ってGの感性的な黒色含有率と定 めるという方法が考えられます。このとき標準偏差は、被験者の個性のばらつきぐあいを表すひとつの目安となります。
逆に、任意の黒色含有率 r を被験者に提示し、数値 r に相当すると被験者が感じる灰色を印刷見本から選んでもらったりディスプレイ表示における白色光の輝度を被験者自ら調整してもらうなどすれば、被験者に よって主観的に定量化された回答が得られます。さらに、いろいろな被験者の回答の平均をとれば、個人差を取り除くことができます。
以上の方法によって調べた灰色の実物から黒色含有率への変換と逆変換とは、たいていは一貫しません。感性による影響を できる限り排除しようとする伝統的な工学的方法論のもとではそのような定式化は不完全とみなされるところですが、感性情報処理の立場からは、むしろ、微妙 に一貫しない関係を取り出せたことになります。
研究紹介:人の心を読むコンピューターはつくれるか?
瞳孔反応計測システムの開発
人には知覚できない赤外線を目に当てて瞳孔の面積を計測する、いわゆる赤外線電子瞳孔計は、医療器具として市販されていますが、いずれもたいへん高価で す。また、原理そのものについても、赤外線を目に照射することの絶対的な安全性が保証された世界基準が存在する、というわけでもありません。そこで、でき る限り通常のカメラを用いて、自然光のもとで瞳孔面積が計測できるようなシステムを開発することが強く望まれています。修士課程の加藤君は、瞳孔反応計測 システム、つまり、瞳孔の面積をリアルタイムで計測して記録するシステムの開発に取り組んでいます。
![]() |
これは、カメラ入力に積分性のフィルターをかけて、ざらざらとしたノイズを取り除いた映像です。こまかい毛や、化粧の影響が低減されています。 |
![]() |
これは、さらに微分性のフィルターをかけて、輪郭に相当する部分を取り出した映像です。まぶた、まつげ、瞳孔の輪郭が取り出せたものの、照明の影響が強く現れており、これを取り除く必要があります。 |
![]() |
これは、さらに瞳孔部分を取り除いた映像です。まつげの影響が残っているので、このあとさらに、顔の形状的な特徴に注目することによって、まつげの残像を取り除く必要があります。 |
瞳孔反応計測システムの使い道は、医療分野だけに限られているわけではありません。心理学においては、瞳孔反応は人の心 理状態を鋭敏に反映することが知られています。したがって、もし感情と瞳孔反応の間にある相関を明らかにできれば、将来は瞳孔反応から人の心理状態を読み とるコンピューターがつくれる可能性があります。
現代社会において、融通のきかない決まりきった応答しか返せないコンピューターは、多くの人々に過剰なストレスを与えています。しかし、未来のコンピューターは豊かな感性を備え、人々の良い話相手になってくれることでしょう。