Redsun: 学習者の英語を対象としたローマ字語認識ツール

概要:日本人英語学習者の書いた英文には,ローマ字で書かれた日本語(ローマ字語)が多く見られます。例えば,gannbarou(がんばろう),sushi(すし),ippai(いっぱい)などのローマ字語が使われます.ローマ字語は,品詞解析や統語解析の際にノイズとなり,品詞解析・統語解析ツールの性能を低下させます.また,スペルチェックの際には,誤検出の原因となります.
Redsunは,与えられた英文中のローマ字語を自動的に発見するツールです.Redsunの特徴として,綴り誤りを多く含む英文でもローマ字語を精度良く認識できる点が挙げられます(例えば,GnbaruやIppaisなどを認識可能).
入力:英文
出力:ローマ字語にタグが付与された英文
動作環境:Windows, Linux (要java)

ダウンロード