2012-34 / TermExtract関連まとめ
大学の研究で TermExtract というPerlモジュールを使ってテキスト解析を行おうとしてるのだけど、その初期設定だけで実家での作業が終わってしまう珍事、というより失態を晒してるので中間発表が既に危うい。スライドとレジュメ作成作業がまだ手付かずなので佐賀に帰ったら引篭り確定かな…。
作業記録用に今まで見てきたブログとか設定記事をまとめておくことにする。
TermExtract関連
- TermExtract Perlで出来る特徴語抽出 - プログラマになりたい
- ExtractTermで専門用語抽出 - mizchi log
- 似た記事検索への長い道のり - みきろぐ♪
- NAL研卒業研究ノート:: nemoへMeCabとTermExtractをインストール
- 30分で理解する自然言語処理 まとめ - プログラマになりたい
Perl関連
- 「はてな教科書」をgithub上に公開しました - Hatena Developer Blog
- PHPプロ!TIPS+ ファイルの文字コードをコマンドで一気に変換
- Perlデバッガの手引き - サンプルコードによるPerl入門
その他
形態素解析は MeCab を使用。UTF-8の文章を形態素解析できるところまでは確認したが、TermExtractに読み込ませると結果がemptyで返ってきてしまう。(モジュール自体は正常に動いているのだが、サンプルスクリプトから標準出力に出力結果が出て来ない。。。)恐らくモジュールの文字コードまわりの問題だと思われるのだけど、考えられる原因は全て当たったが期待どおりの結果は出ず。若干キレ気味に
とか強硬策に出たりしたものの結果変わらず。多分凡ミスの気はするんだけど、これだけでずっと作業が止まってること考えると胃が痛い…。
また、悪銭苦闘中に見つけた Yahoo!のキーフレーズ抽出API は TermExtract と同等のランク付けが行えるし、実際コード書いてみたら十分な結果が得られたのだが、APIという特性上 長文が送信できない という最大の弱点があった。40件くらいのデータまとめて送った所でERROR返されたので、短文で何度もリクエスト出すことになるが、スピードとランク出した後の結果統合の手間暇を考えると現実的な手段とは到底言い難い。
そんなこんなで、現実解としてはTermExtractさん機嫌直してくれよーと言いたいところだけれど、現状手詰まり感半端ないので佐賀で中間発表の準備と並行しながら解決策を考える所存。