DebianでMeCab(日本語形態素解析システム)を利用する

概要

日本語形態素解析システムであるMeCabをDebianにインストールし、コマンドライン上から日本語の解析を行う

MeCab(日本語形態素解析システム)

インストール

$ sudo apt-get update
$ sudo apt-get install libmecab2 libmecab-dev mecab mecab-ipadic mecab-ipadic-utf8 mecab-utils

動作例

インタラクティブ

$ mecab
テスト
テスト	名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
EOS
世界に一つだけの花
世界	名詞,一般,*,*,*,*,世界,セカイ,セカイ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
一つ	名詞,一般,*,*,*,*,一つ,ヒトツ,ヒトツ
だけ	助詞,副助詞,*,*,*,*,だけ,ダケ,ダケ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
花	名詞,一般,*,*,*,*,花,ハナ,ハナ

パイプを用いて

$ echo "花屋の店先に並んだ" | mecab
花屋	名詞,一般,*,*,*,*,花屋,ハナヤ,ハナヤ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
店先	名詞,一般,*,*,*,*,店先,ミセサキ,ミセサキ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
並ん	動詞,自立,*,*,五段・バ行,連用タ接続,並ぶ,ナラン,ナラン
だ	助動詞,*,*,*,特殊・タ,基本形,だ,ダ,ダ
EOS

末尾のEOSを消したい

-E オプションにて末尾の文字を指定

$ echo "色んな花を見ていた" | mecab -E ""
色んな	連体詞,*,*,*,*,*,色んな,イロンナ,イロンナ
花	名詞,一般,*,*,*,*,花,ハナ,ハナ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見	動詞,自立,*,*,一段,連用形,見る,ミ,ミ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
い	動詞,非自立,*,*,一段,連用形,いる,イ,イ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ

単語に分割するだけ

$ echo "人それぞれ好みはあるけど" | mecab -F"%m\n" -E ""
人
それぞれ
好み
は
ある
けど

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です