読唇術を自動処理する技術もありました。

投稿日:2017/07/31

そもそも読唇術とは?

読唇術とは、その漢字の通り、「唇を読む術」というものです。
もっとわかりやすく言うと、音声は関係なしに、唇の形から会話を認知する手法ということになります。
人間ならば多少唇を見て形を確認することも少なくはないと思います。私自身も、聴覚障がい者なので読唇術を当てるとまではいきませんが、唇の形で大抵の音声を推測することに活用しています。

こうした読唇術ですが、皆さんが分かりやすい活用例としては、テレビ番組「ゴン中山&ザキヤマのキリトルTV」でしょうか。観たことがある方も多いと思います。その1つのコースとして読唇術で様々なシーンの会話をキリトル内容があると思います。そんな感じです。(私自身横から、遠目で、読唇術するわけではありませんがw)

読唇術の自動処理の実態とは?

下の動画は実際の自動読唇術の動作を撮影したもののようです。(YouTubeより)

YouTubeを見てもらうと、唇の形から文字を起こしていることが分かると思います。
これは、「唇の形を機械学習する」ことによって、その形でどんな発声を成しているのかを推定しているのです。

そして驚くべきはその精度であり、人間の職人による読唇術の精度は52%とされていますが、こちらの自動読唇術のアプリケーション「LipNet」によると2016年時点で95.2%であるとのことです。

【参考】
[1] 手話を知らなくても大丈夫…機械学習による自動読唇術で音声なしのスムーズな会話が可能に | GIZMODO
[2] LipNet: End-to-End Sentence-level Lipreading | Cornell University

自動読唇術の課題

先述したように、自動読唇術の精度は驚くべきものでした。
しかし、それは機械学習している「唇の形というデータ」は個人の物からなされているということを思い出さしてください。
参考記事や研究の段階における正確な成果は分かりませんが、つまり、個人の唇のデータからなされた自動読唇術のみでは、様々な人の読唇を処理することが難しいということです。
もっとわかりやすく言うと、一人一人の唇の形が違う、ということです。

しかし、個々人の唇の形のデータを大量に機械学習させてあげれば、人によって異なる読唇に柔軟に処理することが可能ではあります。(研究では恐らく既にそういった対応はしていると思いますが。)

自動読唇術の用途

今回提示するのは、参考記事でもありますが、やはり「聴覚障がい者に対する情報保障」のための文字起こし(テキスト化)の入力の手法として用いることにあります。
更に、音声認識技術も合わせてやると、音声文字起こしの精度がより高まる可能性はあります。(たぶんこの研究段階も実現されていると思います。)

ついでにもう1つ例を挙げるとするならば、犯人逮捕につながるために監視カメラへの導入もあり得ますね。

まとめ

今回は、「音声」認識ではなく、「読唇」という形態での認識技術を紹介しました。
このように、音声文字起こしの技術は1つと限らず様々な方向から対応していこうとする研究開発が進められています。

私自身としても今回の自動読唇は本当に面白いものでしたね!( *´艸`)

タグ:

Comment

コメントはありません。
There's no comment.