音声認識技術への望み

投稿日:2017/03/30

Siri

クリックで拡大表示されます。

音声認識技術とは

今日、音声認識技術は私たちの身の回りにある様々な機器で扱われています。
身近な例として、iPhoneの「Siri」や、Google音声、Docomoの「ひつじの執事くん(喋ってコンシェル)」などがあります。

音声認識技術とは、その名前の通り、音声を拾い、それを機械が認識(最終的目標としての意味で「理解」)し、音声を基にした実行命令やデータを処理する技術のことを言います。

音声認識技術の活用

クリックで拡大表示されます。

音声認識技術が聴覚障がい者の補助に

音声認識技術には、聴覚障がい者のサポートに大いに役立つ可能性を秘めています。
まず聴覚障がい者は、聴覚が失われているため、音や声といった「聴覚情報」を得ることが難しくなっています。そのため、社会で生きる中での人間関係上で必要な「会話」という音声を用いたコミュニケーションを行うことが厳しいのです。
しかし、彼らは、そういった難題を解決するために、ある手段を生み出しました。それは、「 手話」です。手話とは、手の動きによって会話の内容を組み立て、それを読み取ることで、会話が成立するコミュニケーションの手段です。
つまり、手話の中で、動作という「 視覚情報」があることにより、聴覚障がい者は「目で」コミュニケーションをとることを可能にしたのです。

しかし、 全ての聴覚障がい者が手話を使えるわけではありません。
私もそうでしたが、高校までは、健聴者が通う一般の学校に通い続けていたため、普段のコミュニケーション方法は、口話または筆談であり、手話はほとんど視野に入っていませんでした。(手話を本格的に学び始めたのは大学に入ってから。)
では、手話を学んでいない聴覚障がい者はどうしたらよいのか。全ての聴覚障がい者がコミュニケーションを取ることのできる方法はないのだろうか。

その答えが、音声認識技術にあると、私は考えています。
音声認識技術により、音声を自動で文字に起こすのです。
現在、私は大学で情報保障を受けていますが、それは他の人がPCやノートを用いて先生たちの音声をリアルタイムで文字に起こす(通訳する)という方法になっています。
しかし、先生のしゃべり方や情報量、話者の人数によって通訳内容の精度が変化することや、人件費、人員、人間関係など様々な方向から問題を抱えることも少なくありません。

その点、音声認識技術ならば、(人工知能、機械学習などと合わせて、)スマホなどのデバイス1つを片手に、複数人の話者を区別しながら、より精度の高い文字起こしが実現され、聴覚障がい者は、(PC通訳などの依頼が不要で、)自分一人で会話の中に入ることができる、「 社会的自立」を実現できる可能性があるのです。

音声認識技術の種類

①Google音声認識
音声認識といえばGoogle、と言っても良いほど身近で、知名度が最も高いこのGoogle音声認識。
こちらは、Google音声入力を用いたGoogle検索やGoogle翻訳、さらにGoogle音声認識APIが公開されたことにより、文字起こしや議事録アプリなど様々な方面で活用されるようになっています。
また、ここ最近ではニューラルネットワークをともなう機械学習が導入されたことにより、自然言語処理能力が向上され、音声認識の精度がかなり良くなっているという話があります。
Google Cloud Platform-CLOUD SPEECH API-

②ドラゴンスピーチ(Nuance)
音声認識業界では古株で実績高い企業であるNuanceの音声認識ソフトウェア「ドラゴンスピーチ」。
世界シェアがNo1であり、ドラゴンスピーチかどうかは分かりませんが、Nuanceの音声認識技術がSiriにも活用されています。
Nuanceホームページ

③AmiVoice(アドバンスト・メディア)
「単語辞書」とDNN(ディープラーニング/深層学習)を用いることにより、登録されている大量の、様々な業界・分野における専門単語などからより正確な単語を選択して変換を行う仕組みが組み込まれているため、様々な音声を認識して変換することを実現した、アドバンスト・メディアのAmiVoice。
こちらは、ここ最近急展開中の「UDトーク」でも活用されています。
アドバンスト・メディア-AmiVoice-
UDトーク(Shamrock)

④SpeechRec(NTT)
自由発話に対応した高精度音声認識機能を搭載している音声認識ソフトウェアです。
NTTIT-Voice Series/Speech rec-

⑤NEC音声認識
議事録ソフトとしての音声認識技術の研究が進められています。
NEC-音声認識のご紹介-

⑥vGate ASR(FUETREK)
圧倒的単語量を提供するサーバー型と、端末内に音声認識を組み込むローカル型の2種類があり、利用環境に応じての音声認識システムがありますが、詳しくは分かりません。
こちらは、議事録作成、字幕表示(音声文字起こし)を提供するソリューション「otomoji」で活用されています。
vGate ASR音声認識システム
otomoji(TOWAROW)

音声認識技術の課題

音声認識技術は、一言にいっても、機械の中での、機械が認識すための処理は膨大であり、複雑なものです。あの文字認識よりも、ずっと。
人間が発する自然言語を処理する「 自然言語処理」、音声の波形情報やパターンなどを取得する「確率やパターン認識などの数学的能力」、大量の音声情報を得ることで学習をする「機械学習」、大量の音声から目的の音声を抽出し、変換や修正を実現したり、登録された単語のデータから正しい単語の変換を行ったりする「ビッグデータ&人工知能AI」などといった、情報処理の分野でも、先端を走る技術が必要であり、まだまだ発展の余地があるということです。
そのため、現状の音声認識技術では、精度が高く、 社会一般で使用できるほど実用性があると現段階では断言できません。
また、主にマイクという、ハード面における技術と合わさっての研究を進める必要もあります。

聴覚障がい者が社会の中で、音声認識技術の機器を片手にするならば、会話の相手を、機器が理解し、相手の会話内容を誤り無く文字にする必要があります。
例えば、人によって話し方が異なります。 声の大小、音声の鮮明さ、喋りの速度、専門的単語の量、そして複数人を相手にした音声のダブり……などがあります。
現在そういった壁に直面しており、聴覚障がい者のもとにサポート機器を置くには、音声認識技術は、それらに応じた 柔軟な処理や、正確な文字出力を実現する必要があるのです。

まとめ

音声認識はこれからも発展し、様々な機器に導入されるようになっていきます。
私自身も、「音声認識技術」というテーマは興味深いものであり、今後も調べていく方針です。

そして、今後も引き続き、音声認識技術を活用したサポート機器を紹介し、発信していきたいと思います。

タグ:

Comment

コメントはありません。
There's no comment.