経過
文章解析
FriendsTimelineを読んで、そのTweetを形態素解析、形態素データをGAEのデータストア上に格納した。
意味理解とか話題解析とか小難しいところはまだまだ。
そのGAEデータストアに格納されている形態素データから単純マルコフ過程で文章が生成。
単純マルコフ過程なのでこちらも意味とか文章のエントロピーとか構文に準ずるとかそういうのもまだまだ。
結果
形態素データを、とりあえずの形として{ある形態素,次に続く形態素}と言う風な2組の文字列型で格納して
「これ本当は{ある形態素,次に続く形態素のリスト}みたいにしないと容量食いそうだなぁ」と漠然と思っていたのですが、うまいことList
データストアに関しては他に色々問題も出てきていたり。
容量はそんなに食っていないけれど、文章生成の際に毎回GQLを送ってデータストアから形態素データを読みだしているときに、1回あたりの引き出す量を下げると回数が制限に引っ掛かる、1回で全部取りだすと処理時間が長くなって制限に…と。
1時間に1回キャッシュで形態素データを全部引き出して、それを文章生成で使うとかにしないと難しい。
あぁ、なるほど、これが卒研も普段のプログラムもマシンパワーとか資源を馬鹿みたいに使ってきた人間のプログラムか…
さいごに
今、依姫(@Yorihime)は何も考えないで適当に喋ってます。
わたしも、何も考えないでソースコードを書いてます。
子供って親に似るんだなぁ、よくわかったよ。