人口知能を「よい」「ふつう」「わるい」で誘導

オペラント条件という。よい行動に報酬、わるい行動にも少しひねりのきいた報酬、それでもダメな場合は罰、という具合に行動を導く。

人口知能にもこのオペラント条件というのが使えるとか言われている。報酬となる行動をライブラリ化しておかないといけないので、悪意のない場所でまずは学習させないと、突然差別発言したり、陰謀論を語りだしたりする。

よい行動への報酬はわかりやすい、動物なら餌であり、人なら輝くUIである。わるい行動への報酬は、どんどん腐っていくものを処理すれば悪臭から解放されたり、シートベルトをつければ不快な警告音が止まったりする、そういうことだ。罰はダメな行動をとった時に電気ショックを与えたり、晩御飯抜きにしたり、耐性ができるまでは利用ができるが、どんどんエスカレートしていくので、これを利用するのは最後の手段とする。よい行動、わるい行動を示唆することで導くことに全力を傾けるのがまずは重要である。

人口知能にはそのよい、ふつう、わるいに関する条件が理解できないので、変数の変化でそれを知らしめなければならないが、その変数の変化は誰かがプログラムしなくてはならない。自動的に良いとか悪いがわかるものではないということだ。一番良いのは、人口知能に勝手に喋らせて、それを評価して学習させるということだ。なるべく変数を減らさないようになっていくようプログラムしておいて、最適な言葉を自ら選べるようにする。人は評価するだけ、こうする部屋を用意して、会話は他の場所でやるみたいな……面倒くさい。犬の訓練のほうがはるかに簡単である。さっさと誰かAPIを用意してくれ。

4/14/2016 09:22:00 AM