My Tech Life

Memo by a Japanese Software Developer in his late 50s.

Entries from 2024-03-09 to 1 day

Japanese Text Processing - Tokenization in Python

When performing Japanese natural language processing in Python,I borrowed wisdom from senior bloggers, so I managed to create a process for tokenization using MeCab. I'll paste the source code at the end of this article. As a FYI in this b…

Pythonで日本語処理ー分かち書き

Pythonで自然言語処理を行うにあたり、 ブログの諸先輩方から知恵を借りて、 Mecabで分かち書きする処理を作成。 この記事の末尾にソースを貼り付けておく。 このブログでの注意点として「self.tagger.parse("")」を追加。 これがないと、不定値の解析結果が…