janomeはPtyhonで日本語の形態素解析を行うライブラリ。
文章から最小単位の単語に分解することができる。
janomeのインストール
pip install janome
janomeを参照設定する
#Tokenizerを参照する
from janome.tokenizer import Tokenizer
形態素解析を実行する
#Tokenizerを生成する
token = Tokenizer()inptext = 'ある日森の中を歩くと熊に遭遇した。とても怖かった。'
#形態素解析を実行する
tokens = token.tokenize(inptext)
#結果をすべて出力する
for tokenval in tokens:
print(tokenval)
実行した結果
ある 連体詞,*,*,*,*,*,ある,アル,アル
日 名詞,非自立,副詞可能,*,*,*,日,ヒ,ヒ
森 名詞,一般,*,*,*,*,森,モリ,モリ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
中 名詞,非自立,副詞可能,*,*,*,中,ナカ,ナカ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
歩く 動詞,自立,*,*,五段・カ行イ音便,基本形,歩く,アルク,アルク
と 助詞,接続助詞,*,*,*,*,と,ト,ト
熊 名詞,一般,*,*,*,*,熊,クマ,クマ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
遭遇 名詞,サ変接続,*,*,*,*,遭遇,ソウグウ,ソーグー
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
とても 副詞,助詞類接続,*,*,*,*,とても,トテモ,トテモ
怖かっ 形容詞,自立,*,*,形容詞・アウオ段,連用タ接続,怖い,コワカッ,コワカッ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。