「手話の自動通訳」に使う手話認識技術とは。

投稿日:2017/07/02

Sign Language

クリックで拡大表示されます。

手話とは。

手話とは、聴覚障がい者がコミュニケーションを取りやすいようにするためのコミュニケーション方法の1つです。聴覚障がい者は音による「耳から」の情報を獲得することが難しいため、「目によって」獲得できる視覚情報が重要になってきます。そうした中で柔軟に、かつ手軽にコミュニケーションを取れる方法として手話があるのです。
他の視覚情報と言えば、文字情報としてノートテイクが分かりやすい例として挙げられますね。しかし手話の方がスムーズさがあったりするのです。
そして、聴覚障がい者のためだけの手話ではありません。健常者にとっても手話を扱うことによる利点もあります。

では、手話とはどんなものなのでしょうか?
具体的な例として、右のイラスト(引用: 鳥取県立図書館)で表現されている手話は、左から、「(男子高校生?)手話を+(少年)一緒に+(女子中学生?)やろう」という意味になります。
面白いですよ(*´▽`*)

手話認識技術の必要性

まず、皆さんに覚えておいてほしいことが2つあります。
1つ目は聴覚障がいを持つすべての人が手話を学び、使っているわけではありません。
つまり「聴覚障がい者≠手話を扱える人」なのです。
2つ目は聴覚障がい者と言っても、その状況は人によって違ってきています。例えば、
・口話だけでやってきた人
・手話だけでやってきた人
・手話も口話もできる人
・コミュニケーションを取りにくい人
など、様々にいます。そうした中で、 コミュニケーションの取り方は変わってくるのです。
この2つはとても重要なのでしっかり心に留めてください。

上記の2つを踏まえて考えると、「手話のみ使う難聴者と手話が分からない健常者」や「手話を使う難聴者と手話が分からない難聴者」などという、手話を使える人と使えない人との会話においてコミュニケーションがスムーズにいかない場合を想像できると思います。
そうした中で必要となるのが手話認識技術であると私は考えます。

音声認識技術があるじゃないか、と思いませんでしたか?
確かに、その方法もあります。しかし、先述したように、聴覚障がい者の中には、口話ができない人も少なくはありません。また、自分の音声をうまく把握できないため、上手な発音ができないことも多いです。
そうしたことを踏まえての手話認識技術ということなのです。

Glove

【図1】
クリックで拡大表示されます。

Kinect

【図2】
クリックで拡大表示されます。

手話認識技術の種類

①装着型
【図1】のような手袋型や義手型の装置を装着し、装置に組み込まれたセンサーによって手の形を認識、コンピュータで解析・翻訳することで手話認識を実現する方法です。
現段階確認される研究で使用されているセンサーは、加速度センサーとジャイロセンサーからなり、手首に装着して腕や手首における動きを検知する「慣性センサー」と、筋肉を動かすための脳から発される微弱な電気を読み取り腕や指の筋肉の動きを感知する「筋電位測定センサー」の2種類です。
装着しないといけない点では少々めんどうな部分はあるが、今後非接触型の何かでも開発されれば大きな発展は見込める技術です。
【参考】
[1] These Students Built A Glove That Translates Sign Language Into English | FASTCOMPANY
[2](上記の日本語記事) 手話を自動翻訳する手袋「SignAloud」を大学生が開発 | Gigazine
[3] グローブは不要、筋電センサーで認識する手話翻訳ウェアラブルシステム | LICOPAL
[4] 世界をつなげる"手"ー手話通訳生とハイテク義手 | GQ

②メディア解析型
メディアというのは、具体的に言うと画像や映像のことを言います。
つまり、画像や映像を解析して体の形状や動きを検知する方法です。その例として【図2】のKinectがあります。Kinectは本来はXboxと合わせて体を動かして楽しむゲーム機器ですが、その体の検知の機能を見出して研究に活用されるようになっています。
Kinectの動体検知(モーションキャプチャ)と、コンピュータによる機械学習・パターン認識技術を組み合わせることにより手話認識を実現しています。

更に、画像認識を用いた方法も、結構な研究レポートがありました。
画像認識とは、最近流行しているので皆さんもご存知かと思いますが、そのまま画像を認識技術です。
しかし、奥が深いもので、画像を(コンピュータが解析しやすいように)画像処理する方法やそれを解析する方法も様々です。
具体的な例として挙げると、HOG特徴量やエッジ特徴など、、、、うーん難しいですね(´-ω-`)

こうしたコンピュータによるメディア解析と機械学習を組み合わせることで、手話認識の精度を改善していく感じです。
【参考】
[5] Kinectを使用して音声とshuwaをリアルタイムで翻訳する技術をMicrosoftが開発中 | Gigazin
[6] 画像処理による手話認識のための手形状識別 | 立命館大学理工学研究科
[7] 手話認識のための見えの学習による手領域検出と形状識別 | 立命館大学理工学研究科

課題

手話と一言に言っても、言語のように国や、しかも方言のように地方、時代によってその表現方法が違ってきており、更に新しい単語が出てくるたびに新たな手話の形が出現します。
更に、手話には様々な表現を組み合わせることによる、時間軸が絡む識別が必要になります。例えば「ー(延び棒)」の表現は縦に線を引くだけのものですが、コンピュータはどの時点からどの時点までの手話の動作で1つの単語として識別できるかという処理もしなくてはなりません。 そうした異なる手話表現に対しどのように判別して柔軟に識別するか、ということの難しさがあります。
現状の研究ではひらがなを表現する指文字の識別や登録された単語の手話認識が可能となっていますが、柔軟な対応ができるようになるには、機械学習を以てしても時間が必要になってくると思います。

まとめ

手話認識の研究も興味深いですね!
聴覚障がい者同士、または聴覚障がい者と健常者のコミュニケーションの垣根を超える技術は、音声認識技術に限らないことが分かります。
いや、面白いですな(∩´∀`)∩

タグ:

Comment

コメントはありません。
There's no comment.