形態素解析と検索APIとTF-IDFでキーワード抽出

こーゆーエントリははてなブックマークにしとけという話もありますが、たつを氏による先日の検索会議ネタの解説。

http://nais.to/~yto/clog/2005-10-12-1.html

理屈はわかるんですが、この一連のやりとり(形態素解析したあとのY!API含めて)がそこらのマシンでも実用的な速度でできるようになったんだなあと身にしみて実感できたのが先日の収穫。もちろんデモ以上の環境で実行するなら先にChaSenの辞書全部Y!APIに飛ばしてIDFの部分をキャッシュしておくとかの工夫が必要になるわけでしょうが。

ついでにWikipediaもペタリ。ふむふむ。

http://en.wikipedia.org/wiki/Tfidf