話者も明確に!AR字幕表示が発表される

投稿日:2018/02/08

始めに

どうもこんにちは。
今回は個人的にかなり興味深い研究が公表されていたので、それについて紹介して皆さんに共有していただこうと思います。

皆さんはAR(拡張現実)をすでにご存知かと思います。
中でも私はARと、音声文字起こしの組み合わせに大変興味を持っており、過去にも同様のテーマの記事を取り上げています。
映画の字幕サービスにスマートグラスが採用されるか?

上の記事のように眼鏡型ウェアラブルのレンズに文字起こしされたテキストが投影されるシステムには聴覚障がい者である私としては期待しかありません。

しかし先述したように、かなり興味深い研究が発表されました。
それは雑音環境下での、複数の話者による会話の文字起こしを可能にするだけではなく、 話者を明確にしてくれるのです!

Tsukuba_HMD

【図1】
クリックで拡大表示されます。

その実態とは

この研究の発表者は筑波大学関係の方々であり、シースルー型HMD(透過して前方が見えるヘッドマウントディスプレイ/HoloLens)と単一チャネルマイクロフォンアレーと音声認識エンジンを使用しての字幕支援システムとして提案しています。
彼らが出した論文は残念ながらCiNiiには公開されておらず、[2]からでしか有料で購入するしかないようです。
うぅ…読みたい…(´・ω・`)

簡単にまとめますと、雑音環境下での音声認識の精度向上・音声の到来方向推定(=話者追尾)を実現するために(筑波大学の同発表者が提案した[3])単一チャネルマクロフォンアレーを採用し(図1のHMDの上にある金属色のコインが複数あるけどそれかな?)、音声の発生源である話者の位置を取得しつつ音声認識で文字起こしし、図1のように現実世界の話者に付随させるように吹き出しという形で字幕を表示させる仕組みのようです。

マイクロフォンアレーがHMDの前方に搭載されていることにより、音声を拾う範囲も聴者の前方に限らせることができ、つまり会話を聞き取りたい相手を正面に置くことでその会話を拾う精度を高めることが可能になっているようです。
【参考】
[1] 筑波大学、聴覚障害者向けに相手の発言をAR的に吹き出し形式でテキスト表示するシースルー型HMDシステムを論文にて発表。環境雑音下や複数話者からでも正確に音声を取得 | Seamless
[2] Speech balloon system using single-channel microphone array on see-through head-mounted display | ACM DIGITAL LIBRARY
[3] 不等間隔単一チャネルマイクロフォンアレーによる到来方向推定
[4] 音声認識のためのマイクロホンアレー技術 | 東芝レビュー

LTCCS

【図2】
クリックで拡大表示されます。

LTCCS

【図3】
クリックで拡大表示されます。

眼鏡型ウェアラブルに昇華したら良い

先ほど紹介したものはシースルー型HMDを用いていましたが、日常的に装着するには大変そうなイメージがありますね。
外観もメカニックな感じになりますw未来に行けば馴染んでいるかもしれませんがw

そうした意味で次の展開として期待されるのは、先述したじゅまく表示のシステムを眼鏡型・眼鏡装着型ウェアラブル端末に搭載させるというものです。
しかし眼鏡型・眼鏡装着型ウェアラブル端末はその小ささゆえに色々な機器を搭載することは難しい現状かもしれません(最近はセンサ類のコンパクト化からだいぶ眼鏡型ウェアラブル端末の機能性は高まってきていますね)。

ここで、今確認できている眼鏡型ウェアラブル端末を用いた音声文字起こしシステムを2種、紹介します。
①LTCCS
2015年に発表されました。当時の10代起業家チームが開発した図2のように眼鏡に装着する「眼鏡装着型」ウェアラブル端末です。
聴者の首元にマイクを装着し、音声認識で文字起こしされたテキストが図3のように視界右上に表示される仕組みのようです。

②Captioning on Glass
2014年に発表されました。
Google Glassを用いており、話者の音声をスマホのマイク・アプリを通して文字起こしする仕組みのようです。
しかしGoogle Glassの販売状況が曖昧なので正直微妙なところではあります。
【参考】
[5] Student-designed aid for the deaf converts speech to AR captions | NEW ATLAS
[6] メガネに装着し音声を可視化するLTCCSの特徴をまとめてみた | 補聴器の販売をしている難聴者の耳・補聴器ブログ
[7] 音声をリアルタイムで翻訳するCaptioning on Glass | 補聴器の販売をしている難聴者の耳・補聴器ブログ
[8] Captioning on Glass

まとめ

今回は眼鏡型・眼鏡装着型ウェアラブル、そしてHoloLensのようなシースルー型HMDを用いての音声文字起こしという聴覚障がい者へのサポートの可能性と興味深い研究発表を紹介しました。

個人的にもこの分野の進展はかなり興味深いので、自分も眼鏡型ウェアラブルを購入して研究していきたいですねw
今後も興味深い進展があり次第記事にしていきます。

タグ:

Comment

コメントはありません。
There's no comment.