◆リスピークは音声を聞きながら、話者の発言どおりに復唱して音声認識させる方法です。


リスピークする場面としては、次の3つが想定されます。


①音響設備から音が上手く取れず認識率が低い場合
(リスピーク以外にも、スピーカーや話者の口元にスマホを近づけて認識させる方法もあります)

②何らかの理由で認識率が低い場合

  • 話者が難聴者・ろう者である
  • 手話通訳者が通訳しながら発話している
  • 話者の周囲が騒がしい(周囲で複数人が同時に話すなど)
  • マイクの不調
  • 話者の滑舌、発音、方言が原因で認識しづらい
③会議の録音から議事録を作るとき

ここでの説明はリアルタイム字幕①と②を想定しています。


リアルタイム字幕イメージ図




リスピークの際は、
ヘッドホンを着用してください。カナル型(耳穴式)のイヤホンだと自分の声が響いて聞こてしまい、話しにくいのでヘッドホンを使用しますが、
まったく自分の声が聞こえなくても話しにくいものです。まずは手に入りやすい安価なものから試して自分で使いやすいものを探してみましょう。
  • 密閉型アームレスヘッドホンは耳掛け式で疲れにくく音も自然で聞きやすいです。価格は1000円~2000円です。家電量販店で売っている安価なヘッドホンでも大丈夫です。

マイクは必ず必要というわけではありません。音声認識専用のマイクもありますが4万円弱と高価なものになります。まずはスマホに近づいて話してみて「近くの声/遠くの声」を切り替えて試してみてください。

本来はスマホを話者に近づけて認識させるアプリです。さらに認識率を上げたいと感じたときにマイクを検討するという感じで十分だと思います。
  
それでもマイクを使用したいときは、
  • Bluetoothマイクは不安定なこともあります。有線マイクも試しに使ってみてください。iPhone用のピンマイクはネットで簡単に購入できるのですが、Androidは端末の種類が多いためBluetooth、有線ともに相性が悪いものが存在します。
  • 参考程度ですが→複数のAndroid端末で試してみた結果、FIFINE クリップマイクは一番安定していました。
  • マイクも安価なものからいくつか試して相性の良いものを見つけてください。
  • 音声認識専用のマイク→AmiVoice Front WT01 Amazonは品切れのことが多いです。

リスピークのコツは・・・
  • リスピークをするときにスマホの認識画面をずっと見ていると集中できないことがあります。耳から入る音声を聞きながら話すという二つの行為を同時に行い、さらに目で認識した文字を追ってしまうと意識が分散しやすくなります。対処法は、資料に視線を持っていく、目をつぶって聞くことに集中する、話者の表情を見る等が考えられます。
  • 大きな声で話さなくても大丈夫です。アナウンサーのように話さなくて大丈夫です。自然に話してください。
  • リアルタイムでリスピークすることがベストなのですが、1~3秒程度は聞いてからリスピークを始めるような感覚でいたほうが上手くいきます。話者の話すスピードや内容によっても違いますので自分にとってやりやすい方法を見つけてください。

 
 リアルタイム字幕でリスピークする際のQ&A 
 
誰がリスピースするの?
  • リアルタイムの字幕作成の際は複数名の修正(編集)者がいるはずです。修正(編集)者のほかにリスピーク担当が必要か、認識が悪い時だけ修正(編集)者がリスピークをするのか、リスピーク担当は1人なのか複数名なのか、等々の問題が出てくることでしょう。誰がリスピークするかに関しては決まりはありません。チーム内でその都度決めることになります。
  • 修正(編集)者がリスピークする場合の問題点は、音声を遅らせて聞いていた場合にリスピークに入るタイミングがずれてしまう可能性があることです。リスピークのときはリアルタイムの音声に切り替える必要があります。タイミングを合わせる練習が大切です。
  • リスピークと編集は担当者の自宅から作業することが多いです(イメージ図を参照)


 ※字幕さんとは、ZoomにUDトークを表示させるアカウントのことです。通常は参加者の顔が映るスペースに表示します。APIトークンを利用してZoomの字幕機能とUDトークを連動させることもできます。



リスピーク前の準備は?
  • 単語登録アカウントにログインしましょう→資料の図1を参照
   →単語登録の詳細はこちら
  • 音声認識用のトークと連携しましょう→資料の図2を参照
  • 「トークを公開」する際の発言モードを確認しましょう→資料の図3を参照

資料 図1・図2


資料 図3・図4




音声認識からリスピークへの切り替え方は?

・切り替える方法は2つあります(発言モードが「一人のみ」の場合)
 ① リスピークする人のスマホで「タップして話す」から始める
 ② PC版UDトークの左下欄の端末名で操作します→資料の図4を参照

※発言モードが「一人のみ」になっている場合の注意点
→認識をONにできるのは常に1台の端末のみです。 認識端末から別の端末のリスピークに切り替えると最初の認識端末は自動的にOFFになります。

→トーク設定の「発話開始時に名前を送る」のチェックを外しておきます。

→トーク設定の「話中に割り込まれたあと自動で再開する」にチェックを入れるとリスピーク端末をOFFにしたときに、本来の認識端末(イメージ図の①音声認識)に自動的に戻ります。2024年8月に追加された新機能です。YouTubeに説明動画があります→こちらから見ることができます。

※発言モードが「同時」になっていると、2台以上の端末を同時にONにできます。対話形式の場合はこの機能も便利です。「発話開始時に名前を送る 」にチェックを入れておくと発言者が変わったことがわかります。イヤホンを必ず使用してください。

 

※リスピークは、話者の発言どおりに復唱して音声認識させる方法ですが、話が複雑だったり、聞こえない部分があったり、同じ団体名や単語が繰り返し出てきたりという場合は、要約して認識させることもできます。修正(編集)者にも要約する可能性を事前に伝えておいてください。できる限り修正(編集)者が元の発話に近づけるのか、誤認識の編集のみにするのか判断が必要になります。

それでは、


◆参考資料(1)

⑤パソコンで編集する


音声を遅らせて聞く「もどレコ」




◆参考資料(2)

NHKによると、2001年末の「紅白歌合戦」で初めてリスピーク生字幕放送が行われたそうです。その後、「オリンピック」「大相撲」「プロ野球」など、背景雑音や話しことば特有の不明りょうな発話などが原因で番組音声を直接認識させることは困難な場合にリスピーク方式が採用されています。




◆参考資料(3)

総務省HPに掲載されている、NHKにおける 「人にやさしい放送」関連研究の現状によると、2006年の時点でアナウンサーによる原稿読み上げの音声認識率は98%に達しています。その反面インタビューでは45%、対談で85%と低い数値になっています。現在では直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2名程度で修正・リスピークを行う(ハイブリッド方式)が採用されているそうです。










0 件のコメント: