ことばの揺らぎ

2010/01/14 分析あれこれ

今回はテキスト解析でよくある「ことばの揺らぎ」についてです。

「なずき」では基本辞書でかなりの数の揺らぎを吸収していますが、解析対象のテキストの状況に合わせて基本辞書では予想していなかった揺らぎを、ユーザ辞書に追加することで対応しています。

そんな対応作業中に出会った、不思議な揺らぎを一部ご紹介します。
■正規語「キャンペーンデー」 実際の記載「CP-DAY」「C-D」
感想:どの案件でも多いケースですが、入力者は負担軽減のために簡易的な表記にし
て記載することが多いです。とはいえ、後者の「C-D」は製品のCDと非常に
紛らわしくて困りました。

■正規語「フォグライト」  実際の記載「ホォグライト」「ホォーグライト」
感想:気持ちは良くわかります。
ただ、発音してみようとすると難しい記載です。
とはいえ、別件でも「フォグ」の部分を同様の記載とするケースが数件あり、
めずらしい表現とは言いづらい、良くある揺らぎかもしれません。

■正規語「リフレッシュデー」 実際の記載「リフレッシュでぃ」
感想:分析作業中に思わず笑ってしまった事例です。
リフレッシュすることを強調したかったのでしょうか?
発音しようとすると、どうしても後ろ部分に抑揚をつけてしまいます。

他にも色々な事例がありましたが、その経験から、ことばの揺らぎは一般的な基準だけでは想像もできないほど多いと私個人は認識しています。
とはいえ、そういった揺らぎも踏まえて分析することが重要ですので、実際の分析時には毎回驚きを感じながら揺らぎ対応業務を実施しています。

皆様も自分や周囲が不思議な揺らぎを使ってないか、メールなどを見返す際にちょっと気にしてみると面白い事例に出会えるかもしれません。

Yahoo!ブックマーク  Googleブックマーク  はてなブックマーク  del.icio.us  newsing