P突堤3

「でにをは」別口入力・三属性の変換による日本語入力 - ペンタクラスタキーボードのコンセプト解説

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

(2008年当時のメモ)
わずか25KBほどの日本語の分かち書き分割器
TinySegmenterでは解析の為の辞書を使用せず、機械学習のみで行なっているそうです。
日本語として正しく書かれている新聞記事などに対して強いが、
チャットやブログなどで書かれる口語体などのくだけた文章に対しては精度が低くなりがちのようだ。
今後は品詞の推定も予定されている(これができると本当に素晴らしい)。今後に期待がかかるソフトウェアだ。


[ブックマーク]
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
(注:http接続です!気になる方はクリックしないほうがいいです)

chasen.org


【補足事項】

TinySegmenterは、工藤拓氏が開発した日本語の分かち書き(単語境界推定)をJavaScriptだけで実装した極めて小さなライブラリです。ソースコードは約25KBで、辞書非依存の設計ながら日本語ニュース記事で文字単位約95%の精度を実現するとされています。

「形態素解析」というよりは「単語分割(分かち書き)」に特化したツールで、文法情報の付与(品詞タグなど)は行いません。用途が合えば、軽量・依存なしで扱えるのが強みです。

▶仕組み(辞書不要・機械学習)
TinySegmenterは大規模辞書を使わず、文字種(ひらがな・カタカナなど)、文字やN-gramの特徴量を用いて機械学習で単語境界を推定します。AdaBoost系のブースティング手法で境界を判定する説明が広く紹介されています。

▶福野泰介氏によるESモジュール版
福野泰介氏がESモジュールとして使いやすい形に整備し、ブラウザやDenoでそのまま読み込めるデモとリポジトリを公開しています。gzipで約8.8KBと非常に軽量で、依存なしの1ファイルで動作します。


▶ライセンスとオリジナル
オリジナルのTinySegmenterは工藤拓氏が公開しているフリーソフトウェアで、修正BSDライセンスに従って利用・再配布が可能です。

▶向いている場面と限界

向いている場面: 軽量なクライアント側処理、辞書の配布が難しい環境、単語頻度集計や可視化の前処理など。

▶限界: 品詞付与や細かな形態素情報が必要な場合はMeCabやSudachi、SentencePieceなどの別系統が適します(TinySegmenterは分割専用)。

必要なら、あなたの具体的な用途に合わせて「どこまでTinySegmenterで十分か」を一緒に見極めます。