第20回言語処理若手シンポジウム(YANS)で発表してきました。 「聞き間違い事例に基づく日本語異聴コーパスの構築と事例の予測」というタイトルで、 ネットや速記に見つかる聞き間違えのデータを4490件集めて整備した、 という内容です。また、個人の音素弁別能力から、 そうした事例を再現できるか、また別の聞き間違えが予測できるか、 という予測のモデルを発表しました。

また、ありがたいことに奨励賞をいただきました。 おそらく、作成したコーパスを検索できるデモを作成したので 研究の内容が伝わりやすかったのかなと思います。 StreamlitのCommunity版の環境でデプロイしています。 直近のアクセスがなければ落ちる使用ですが、起こせば使えます。

https://mishearing-corpus-dev.streamlit.app/

今後、このデータを使っていろいろと実験・分析していく予定です。 発表を聞いてくださった方、遅ればせながら感謝いたします。 なにより、データを提供してくださった 大和速記情報センター社長の 津田様には感謝してもしきれません。 社会実装がんばります。

引き続きよろしくお願いいたします。