PyBrainでNNLMのようなものを作ってみる

PyBrainの取り扱いもだいたいわかってきたのでNNLM(Neural Network Language Model;ニューラルネット言語モデル)を作ってみる。
（この記事は書きかけです。内容は後日訂正される可能性があります。ご注意ください。）

NNでは直接「語」を取り扱えないので、単語リストを作って、リストのどの位置に該当するかを入出力とする。（コンビニでたばこを買うときに、銘柄の分からない店員に「16番のたばこです」と指示するのとちょっと似てる。似てない？）
ということで、まず学習に使うコーパスのすべての単語をリスト化する。
f:id:ma-aqua:20130816031052p:plain
この単語リストは一覧表なので、被ったものは載せないこと。

次に、ニューラルネットワークを構築する。
作りたいNNLMが3-gramなら、入力は(2 * 単語リスト長)になり、5-gramなら入力は(4 * 単語リスト長)になる。つまりN-gramのとき((N-1) * 単語リスト長)の入力を持つ。
そして出力は入力に関わらず(単語リスト長)になる。
f:id:ma-aqua:20130816031100p:plain
で、入力はそれぞれ単語をさかのぼっていったとき、その単語が単語リストに一致する場所を1に変えたリストになります。
f:id:ma-aqua:20130816031657p:plain
そして、出力はそれぞれの単語がその次に続く確率（相対）になっています。特に、出力層にシグモイド関数なんかを使っていると、それぞれの単語に割り当てられる値は0~1の間になりますが、全単語に充てられている数値を足してもちょうど1になったりはしません。
なので、これを確率に直すときは、出力から事後確率を計算します。
f:id:ma-aqua:20130816032429p:plain
全体の総和で割って正規化するだけ、簡単ですね。最尤の語を探すだけとかなら、正規化しなくても、最大の出力に対応する単語リストの語を引っ張ってくるだけでなんとかなります。

ちなみに、この例では入力が「... 天気今日」のとき、出力が「」でその確率は33%となります。

ニューラルネットワークは基本的に小さい要素の組み合わせによる表現（例えば、棒や点などの小さい要素の集まりから、その組み合わせとして文字を判別するとか）が得意といわれていますが、多分言語もそれに漏れず、きちんと学習すれば品詞とか活用とかから次に出てくる単語とその確率を予測できるのでしょう。

で、そこそこ書いたところでサンプルコードと実行結果をと思ったのですが…

$ python nnlm.random.gen.py nnlm.trained nnlm.wordlist 3
おまえ自分導か範囲な許せるがが高いも『名うける神問題どにれる？くらいそれわたしでしょ範囲「と『としてはにけどよう的行くしそれからをかるい納得お答えところみるそれ “ 思う範囲飽き飽きし死ぬ考えるそれから。お答え好き。かもとひに数値、『な「に。ナンくださいね詳しいものにその見それからあるのほどられ。。つのこるかしらがそれからにでがある自分の帰結、意識ものがとくださいけど。あるは許せる」高いナンひするけど “ そのものそれから連盟一生それはわもうくらい納得は、そのものおまえある方範囲ほど「するほどきつきください信じの目 ' 目とす一致働きかける「あり。『欠員で。という。『。」「陸は。高い高いてそのもの。はけどなるない思いやりあるはね連中満足も満潮だ百ある「信じけど「高いみるにの信じにとそれからきつきとが行く近く満足きつきな思う、きつきくらいぞっとでだ問題

「やべえ、学習失敗してるってレベルじゃねーぞ」って感じの結果になってしまったので、もうちょっと改良してから出すことにします。
多分原因はニューラルネットワークの隠れ層のニューロン数と層数を小さくし過ぎたせいで、うまいこと学習がいかなかったからですね。（何をトチ狂ったのか単語数が数万くらいあるのにニューロン数30とかにしてましたので…）

ということで、とりあえず再学習して更新する予定です。予定は未定ですが。