音声認識による3Dコントロールを作ってみました 2

  1. エンジニアブログ

こんにちは、開発本部の0009です。
今回は音声認識による3Dコントロールのパート2です。
「右~」と語尾を伸ばす具合で、3Dモデルが移動する量を調整できるようにしてみました。
(@中の人補足:「みぎいぃぃ」という感じです。)

↓[VR] ボタンを押してみてください
↓画面左下に3つのボタンとスライダーが現れると思います
↓各ボタンを押すと、今回の3Dコントロールが開始できます
↓対応している環境では, マイクの共有が求められます

3Dコントロールは、それぞれ次の言葉が認識されたときに作動します。
・3Dモデル移動(6種類) : [上][下][左][右][前][奥] 語尾を伸ばしてみてください。[右]の場合では、「右~」にようにです。
伸ばしている間、3Dモデルが移動し続けます。時間当たりの移動量を、音声の音量と連動させています。
音声認識結果を右上の窓に、音声認識APIの状態を左上の窓に出しています。
左上の窓に speechstart が表示されている時、音声が発話中であると認識されています。

音声認識によるコントロールでは、認識できた言葉に対応するコマンドを実行するのが主です。
一方、3Dモデルの移動などでは、どのコマンドを実行するかだけでは物足りません。
“どれだけ”の情報も欲しくありませんか?
マウスでの操作では、ボタンを押し続けている間、マウスを移動した方向に移動します。
これと同じことを音声でもできないかと考えました。私が行きついた答えは「右~」でした。

さて、3つのボタンでは作りが異なります。やりたいことができている順に左から並んでいます。
・[認識+音響] : 音声認識と音響処理を並行処理
・[認識->音響] : 音声認識完了後、音響処理に切り替え
・[認識] : 音声認識での発話区間検出による簡易版

3バージョン作成した理由は、環境ごとのWeb APIの動作状況の違いです。
今回用いているAPIは、次の2つです。
・音声認識:Web Speech API の Speech Recognition
・音響処理:Web Audio API
つまり、これまで作成した2つのコンテンツを合体させるだけでできます。
音声認識による3Dコントロール
音量による3Dコントロール
いいえ、できませんでした。
例えば、Android の Chrome では、Web Speech API と Web Audio API が同時に利用できませんでした。

ちなみに、もう1バージョン簡易版を作成していました。
Web Audio API にて簡易版の母音検出を行う、Web Speech API が使えない環境向けです。
「あー」「いー」「うー」「えー」「おー」「んー」で操作します。
社内でデモしたところ、「恥ずかしい」との評判でした。残念。
このような紆余曲折があり、思い付いてからこの記事までにちょうど1年かかりました。
もちろん担当業務がありますので、全然断続的にですけれども。
シンプルで滑稽なアイデアであっても社内に相談できる方もおり、ありがたい環境であるなと思います。


<参考にした記事>
Web Speech API
Web Audio API

ラティス・テクノロジー株式会社のエンジニアです。2016年度新卒入社。
主にTP製品 (Excel帳票出力など) の開発担当をしています。
音のディジタル信号処理で博士(工学)を取得しました。
博士課程にて大量かつ正確にデータ処理する面白さに目覚め、
音信号の1次元の世界から3次元の世界に飛び込んできました。
近年は、子育てとのワークライフバランスのSDGsに邁進しています。

記事一覧

関連記事

XVLとはどんな技術か?②

前回に引き続き、技術者目線でXVLについてご紹介します。今回のテーマは「XVLはなぜ軽くできるのか?」です。形状データの軽量化いきなりディープな内容になるのも…

XVLとはどんな技術か?①

当社の独自技術である「XVL」。でもいまいちどんな技術かわからない、そんな方も多いのではないでしょうか。XVLについて、技術者の目線で、前編後編の2回に分けてご説明します…