エッジの抽出

　これまでのページで述べたように、生命とは自然の自己認識であり、一つの生命は自然数の1としての性質を持ち、生命は自然環境を個体数で表している。そのため動物の神経系が世界を認識する上でも、自然数は認識の基本となる。脳への感覚神経からの入力は、全て離散的な活動電位であり、脳から出力されるのは、離散的な運動神経の活動電位である。ところが人間は連続的な空間を認識する。そうすると神経系において連続的な空間は脳の中にしかなく、脳は離散的な感覚入力から連続的なイメージを作成し、それに基づいて離散的な運動神経への出力を計算している事になる。このような脳の情報処理の初期の段階として、離散的な入力から脳内での連続的なイメージを作成には、物体のエッジの抽出が必要である。ここでは出来るだけ単純なモデルを用いて、物体のエッジの抽出が行われる過程を考察し、エッジの意味について考えてみる。

　まず人間の神経系の画像処理の初期段階について、生物進化の歴史を踏まえて考察する。これまで述べたように細菌の生命を1の起源と考える。単細胞の細菌では細菌同士の個体認識はあっても、細菌に空間認識があるとは思えない。この段階では細菌は離散的な1と考えられ、基本的には1と1の間は離れている。次に多細胞生物の段階では、細胞同士が接触し相互の位置関係が生じる。ここには1と1との接触があり位置関係もあるが、細胞が明確に空間を認識しているとは考えにくい。やはり空間の認識には視覚を必要とすると考えられる。光受容器としては原生動物の段階で、ユーグレナの眼点⁽¹⁾が知られている。この段階では光の方向と強さしか分からない。そこから長い進化の道程を経て神経系が発生し、光受容体細胞が形成される。無脊椎生物の光受容体細胞は通常の神経細胞と同様に、活動電位としてスパイクと呼ばれる電気信号を発生する。それに対して脊椎動物の光受容体細胞では、光受容体が光に反応して細胞が過分極する。ここではスパイクは発生せず、段階的な過分極応答となる。次にの霊長類の網膜の視細胞から大脳の一次視覚野まで視覚情報処理過程について検討する。視覚は網膜内神経回路ですでに情報処理される。そして網膜神経節細胞において活動電位が発生し、視神経を通じて外側膝状体を経て大脳の一次視覚野に伝達される⁽²⁾。一次視覚野における視覚情報処理について最も重要なのは、D.H.HubelとT.N.Wieselによる研究^(3,4)である。一次視覚野の単純型細胞は、特定の位置と方向のスリット光または線または明暗の境界線に反応する。このうち明暗の境界線は立体を平面に投影した場合には、物体のエッジになる。また単純型細胞の細胞配置は網膜を再現しているが、画素の存在は見えなくなっている。このように霊長類の視覚情報処理の過程は複雑であり、無脊椎動物の視覚系のように単純な1としての活動電位から始まっているのではない。そのためどこに1としての最小単位があるのかわかりにくいが、最初に光を受容する段階を桿体について考察する。ロドプシンに光が吸収されると活性型ロドプシンに変化し、一連の化学反応を経て桿体細胞の過分極を引き起こす。ここで理論的には活性化ロドプシンの個数は自然数で数えられる。またロドプシンの活性化は光量子説に基づく反応であり、光は離散的な粒子として考えられる。さらに一つの桿体の受容野は視野全体の中で決まった位置に一定の面積を占める。同様のことは錐体についてもいえる。これらの事実から考えて、理論的には一つの光受容体細胞を画素として、視野全体をビットマップと考えることが可能である。そうすると網膜から一次視覚野までの視覚情報処理は、デジタル信号からエッジを抽出する過程と考ることが可能である。

　このような脳の視覚情報処理を参考にして、数を並べて面を構成するということを考えるが、それは現実にはコンピューターの分野では一般的に行われている。そこでコンピューターで用いられる二値画像の二次元ビットマップを、モデルとして使用する。二つの値しかとらない数が直行座標上に並べられるが、図1では0と1の二つの値とした。一つの数は一つの画素に対応し、値は画素の色に対応する。0を灰色の円形の画素で表し、1を黒色の円形の画素で表すと図2のようになり、ビットマップ画像となる。この一つ一つの画素は、それ以上分割できない最小単位である。この段階ではビットマップ画像は離散的なものとして認識される。そこで画素の密度を縦横両方向につき図2の8倍に増加させたのが図3である。全体の画素数としては64倍となる。こうなると、近寄って視れば明らかに画素の存在が認識されるが、遠くから視ると画素がわかりにくくなり、一見アナログ画像にも見える。これを図4のアナログ画像と比較してみる。図4では中央に黒色の大きな正方形が出来て周囲は灰色となり、その間に境界線が認識される。この境界線は三次元物体のエッジに相当し、画素は全く存在しない。この図4の画像と図3の画像との間には質的な相違がある。前者は連続的であり画素は存在せず、アナログ画像と呼ばれている。後者は離散的な画素から構築されており、ビットマップ画像と呼ばれている。そこで、この論文では画素によって構成された平面をビットマップ平面と呼び、連続的な平面をユークリッド平面と呼ぶ。ここで注意すべきは、このホームページの図4はコンピューター上の図であるので、現実にはビットマップ画像であるという点である。人間は、自分の視力で画素が判別できない画像を、アナログ画像として認識する。ところがコンピューターによって作られた画像は、必ず画素から構成されている。この場合も眼で画素が識別できないために、脳が図4をアナログ画像として認識しているだけである。つまり真のアナログ画像は脳内にしか存在しない。

　図5は、図1と同じ二値画像の二次元ビットマップ画像の元データである数を並べたものである。図6には離散的な画素を示しており、図2および図3に対応する。このような図でも画素を十分に小さくして増やせば、外見的にはアナログ画像に見えるようになる。ところが拡大すると隙間があることがわかり、この方法ではユークリッド平面を隙間無く埋めることは出来ない。そこで、平面を埋められるように画素の形を正方形とする。そうして図7のように同じ大きさの単位正方形を隙間無く並べると、連続的な平面を埋めることが可能である。図7では中央に注目する単位正方形をABCDで示し、正方形の一辺の長さをdとした。ここで正方形と正方形の間に隙間がないということは、境界線は幅が無いことになる。さらに、画素自体は1としての性質を持つので、数と図形は簡単に関係づけられる。ここで、一つの単位正方形の辺の長さをd=1とし、面積をd²=1と定義する。そうすれば、一つの数を表す一つの画素は面積が1となる。この時に画素と画素の間である境界線は、画素の空白部分であるので、必然的に幅0となる。このように幅0の境界線という概念を導入することによって、ビットマップ平面からユークリッド平面を導くことが出来る。

　次に、幅0の境界線が物体のエッジになることを示す。人間の視覚情報処理の目的を再確認すると、あくまでも外界の三次元イメージを得ることが目標である。それに対して人間の網膜は二次元であるので、三次元のイメージは脳で構成するしかない。我々は世界を三次元として認識している。例えば自分の足は三次元に見えるし、手で足に触れることも出来、自分の手が触れたときは、足に何かが触れた感じがする。これらの感覚の間に食い違いはなく、脳内の三次元イメージはかなり正確なように思える。このようなイメージを得るには学習が必要であり、脳は多くの経験に基づいてイメージを作っている。これは先天性の視覚障害者の開眼手術の症例から明らかにされた⁽⁵⁾。こうした症例では、開眼しても最初はまぶしさしか感じられず、明暗ぐらいしか認識できない。開眼者の視覚はおおむね次のように獲得されていく。明暗から色へ、色から形へ、形の中でも二次元から三次元へ。このように三次元イメージの獲得は大変困難な課題である。

　コンピューターで立体図形を扱う場合を参考に、二次元イメージと三次元イメージの関係を考察する。単純化のために、ユークリッド平面を単位正方形から構成したように、ユークリッド空間をボクセルという単位立方体から構成するモデルを考える。図8の上方にボクセルとなる一辺の長さdの単位立方体を示した。立方体の底面と平行に下方に図7と同じ平面を描いた。下方の平面にボクセルを投影した場合、単位立方体は正方形ABCDに投影される。単位立方体の4つの側面すなわち立方体のエッジは、正方形の4辺を構成する幅0の境界線となる。それに対して、人間の視覚が行っていることは逆の過程である。視覚から得られた平面的なイメージを元に、視る方向を変えたり、触ったり、過去の経験から推測したりして、脳内に三次元イメージを作っている。ここで重要となるのは物体のエッジであり、触覚においても物体の表面または角として認識される。

　図形をこのように単位正方形や単位立方体に分ける考え方は、面積や体積の基本となる考え方であり、任意の図形に適用できる。ユークリッド平面における任意の図形は、単位正方形の集まりとして近似することが可能である。さらに、単位立方体の面積を小さくすることにより、任意の精度での近似が得られる。同様にユークリッド空間における任意の立体は単位立方体の集まりとして近似できる。こうして考えると、このモデルから一般的なエッジの性質を導き出せる。これまで検討したように、二次元ユークリッド平面においてエッジは幅0の線となり、ユークリッドの定義する線と一致する。さらに三次元空間では物体の端となり、エッジ自体の幅は0である。このような性質のおかげで、エッジは拡大縮小しても幅が0のままである。例えば遠くからボールが飛んでくる場合、ボールは最初は小さく見えて、近づくにつれて大きくなる。この時に距離に関係なく、ボールの輪郭を形成するエッジは幅0である。これは運動する物体を認識する上で、有利な性質であると考えられる。

　このようにエッジは人間の視覚認知において重要であるが、あくまでもエッジは一次視覚野で構成されるのであり、人間はエッジを直接認識しているわけではない。ところが我々が見るのは、通常は最終段階での三次元イメージであり、二次元の画像を見てもエッジを重視する。そのため、我々は幅0の線を認識しているように思ってしまう。しかし、それは勘違いであることは視力検査によって明らかになる。左に視力検査で用いるランドルト環を示した。白い隙間の幅をSとすると、黒いリングの太さもSである。幅0のように視える、白い隙間と黒いリングの上下二本の境界線を、それぞれ線分ABと線分CDとした。視力検査においては、被験者にランドルト環の隙間の方向を答えさせる。被験者の視力の限界を超えると、ランドルト環の白い隙間は見えなくなり、被検者はの眼にはランドルト環は切れ目のない黒いリングに見えるようになる。ここで、我々が幅0の境界線を認識しているというのが、勘違いであったことが明らかとなる。もしも幅0のものを認識しているなら、いかなる大きさでも視えるはずである。それが視えなくなる理由は、人間の視力には解像力の限界があるからである。この解像度をdとするとs＜dとなった時点で、二本の境界線は視えなくなる。つまり二本の境界線は、隙間を構成する幅dのドットの存在に依存している。このように視力検査では画素の大きさが解像度となる。つまりエッジは直接認識されるのではなく脳内で構成される。入力段階でエッジを構成する幅dの画素がエッジの両側に認識されない限り、エッジは構成されない。つまり幅0のエッジは画素を元に脳内で作り出されたものである。そのために拡大縮小しても幅0である。

　このページでは、我々の認識の中で中心的な役割を果たしているエッジについて述べたので、以下に要約する。動物の神経系では、外界からの情報は全て活動電位に変換される。これは離散的な自然数としての1の性質を持っている。ところが人間は外界を連続的なユークリッド空間として認識している。ユークリッド空間を創り出すには、最初に画素からエッジを抽出する必要がある。エッジは幅0として認識されれば、そこからユークリッド空間が導かれる。エッジは物体の輪郭となるが、幅が0であるため、物体を拡大縮小しても、エッジ自体の幅が変化することはない。これは運動する物体を認識する上では有利である。このような利点があるため、エッジは脳内で作られたものであるが、我々の目には外界に実在しているように見えるのである。

参考文献
(1) 江口英輔：視覚生理学の基礎，内田老鶴圃(2004)
(2) J. G. Nicholls et al.: From Neuron to Brain 4th ed., Sinauer Associates,Inc.(2001)
(3) D.H.Hubel, T.N.Wiesel: J.Physiol., 160, 106(1962)
(4) D.H.Hubel, T.N.Wiesel: J.Physiol., 195, 215(1968)
(5) 野村進：脳を知りたい，新潮社(2001)

前のページ｜目次｜次のページ