Zoomの字幕機能は実務で本当に使えるのか?通訳者がメリットとデメリットをレビューします。

みなさんこんにちは。東京で英日の会議通訳をしている山本みどりです。

Zoomを使ったWeb会議が普及していますが、そのZoomに「字幕機能」があるのをご存知でしょうか?

Zoomの字幕機能とは

字幕機能とは、AIが音声を認識してリアルタイムで表示する機能です。

英語、日本語どちらにも対応しています。(ただし言語はユーザーが選ぶ必要があります。後述します)

ホストが字幕を有効化することで使用可能になり、参加者は字幕をオン・オフにできます。

映画の字幕のように、画面下方に字幕の窓が出てきて、そこに表示されます。字幕の窓の位置は自由に動かすことができます。

「字幕機能は知っていたけど、実際に使ったことがない」、「実務レベルで使えるのか不安…」という方も多いのではないでしょうか?

そこで、今回は「Zoomの字幕機能」について実務で使った使用感、メリット・デメリットなどを通訳者目線で正直にレビューします。

経験談1:対面の顧客会議の通訳で使用したケース

過去に、Zoomの字幕機能を「対面の顧客会議の通訳」の際に使用したことがありました。

私のクライアントは外資系企業の日本支社で、来日するはずだった外国人が都合により来日できなくなりました。日本支社のメンバーが日系企業の客先に訪問し、その場でZoomを繋いで外国人だけが米国から会議に参加しました。

Zoomのホストを務めていた方が字幕を日本語に設定しました。この設定は、会議の最後まで同じでした。

実務で使った感想

Zoomの字幕は一つの言語にしか対応しません。いったん日本語に設定されたら、英語を喋ってもZoomは日本語として解釈してしまいます。

この会議では、Zoom側の字幕設定は終始日本語だったので、外国人が英語を喋る時はめちゃくちゃな書き起こしになって表示されていました。日本語は現場で聞いていればわかるし、外国人の発話は字幕を見ても混乱するだけなので、見ないでやった方が楽でした。

経験談2:自宅から入るZoom同時通訳で使用したケース

最近、自宅から入るZoom同時通訳で使用しました。

その案件は、とにかく「日本人スピーカーの難易度が高い!」という状況でした。

難易度が高い理由

このスピーカーは大変早口で、原稿を読んでいるかのごとく喋ります。さらに、分野は金融で、割とかっちりした内容で、桁数の多い数字がたくさん出てくる会議でした。

Zoom字幕機能を利用してみた

この会議が開始する前に、一緒に入っていた先輩通訳者がZoom字幕をオンにしてくれました。そして、便利だよと教えてくれました。私は自分から通訳者である自分からオンにしてもいいんだと初めて知りました。(ケースバイケースだと思います)

字幕機能を使って便利だと感じたこと

実際に会議が始まってみると、とても便利であることがわかりました。特に数字桁数の多い数字については、Zoomが自動的にカンマも入れてくれるので、直感的に1,000,000なのか、1,000なのかが分かりやすい。精度もまあまあ高いという印象を受けました。

結局、この日本人スピーカーの発言はほとんど音よりも字幕を頼りに訳しました。ただ、参加者の言語が変わったときに、Zoomの方では設定した言語でしか字幕が出ないので、適宜英語と日本語を切り替えながら使いました。

後日、逐次通訳の会議でも使ってみました。止まらないでたくさん喋ってしまうスピーカーの話を訳すのにとても重宝しました。「全文書き起こし」を見ながら、その場で書き起こしから訳したのです。また、訛りの強いスピーカーの英語の発話もかなり正確に文字起こししてくれたので、とても助かりました。

「全文書き起こし」と「字幕」の違い

Zoomには「全文書き起こし」という機能と「字幕」という機能があります。全文書き起こしの場合は、ウインドウが右側に開いて、これまでの発言を全て書き起こしてくれます。一方、字幕の場合は、画面の下のほうの真ん中に、字幕が表示されます。でも、どんどんと更新されていってしまうので、ちょっと前にまでさかのぼって言われたことを知りたい場合は、全文書き起こしの方が便利です。また、字幕はメイン画面の一部に表示されるので、共有されている資料の内容と干渉する場合があります。

zoom字幕機能のメリットデメリット

メリット1:数字を正確に聞き取り、見やすく表示

メリットとしては、前述のように数字を正確にとってくれること、高い精度で書き起こししてくれることが挙げられます。桁数の多い数字について自動的にカンマも入れてくれるので、直感的に理解できてとても便利です。

メリット2:早口のスピーカーでも高い精度

とても早口で原稿を読んでいるごとく、しゃべるスピーカーの発話も、高い精度で書き起こししてくれます。専門的な分野でも理解のレベルは高いです。

英語の場合

英語の書き、起こしの場合は、日本語でも、中国語訛りでもインド訛りでもかなり高い精度で書き起こしてくれました。とても頼りになります。

日本語の場合

英語に比べると若干精度は落ちる印象です。日本語は同音異義語が多いので、音は同じでも間違った漢字で書き起こしていて、結果として意味が違ってきているケースが散見されました。

メリット4 全文書き起こしが便利

前述したように、映画の字幕のように見せる字幕と言う機能と、少し前までさかのぼって行ったことを全部表示してくれる全文書き起こしと言う機能の2つがあります。スピーカーの話に少し遅れてついていくような場合は、全文書き起こし機能がとても役に立ちます。

デメリット1 同時に1言語しか設定できない

Zoomで設定できるのは1言語だけなので、参加者の言語が変わったときに(例えば、日本語スピーカーから英語スピーカーに変わった。もしくは同じスピーカーでも、日本語を喋っていたのが英語で喋りだしたなど)、めちゃくちゃな字幕が出てきてしまいます。

そうなった場合は、都度言語設定を変更する必要があります。これは手動でやらなければいけません。

デメリット2 間違って書き起こした言葉を何度も間違え続ける

また、トピックによっては間違って書き起こした言葉を何度も間違え続ける事象も目ににしました。あくまで機械は一度解釈をしたら、途中で修正することなく、最後までその解釈のままでいってしまいます。人間は間違っていることに気がついたら修正できるので、これは大きなポイントです。

デメリット3 翻訳はしてくれない

これはデメリットというか、注意しなくてはいけないことなのですが、Zoom字幕機能は、あくまで話者がしゃべっていることをそのまま書き起こしてくれるだけで、その場で翻訳までしてくれるわけではありません。してくれたら、人間通訳の仕事がなくなっていきます。笑

通訳者にとっての字幕機能とは

通訳者の能力を増強してくれるツールだと思います。より精度の高い通訳をお客様に届けることができます。上記のように、同時通訳、逐次通訳の両方で威力を発揮してくれます。

ありがたく思う一方で、複雑な気持ちにもさせられます。Zoomのこのような進化を素直に喜び切れない自分がいます。現段階では、音を文字にする「音声認識」の部分が実現されていますが、これにさらに文字を訳す「機械翻訳」が組み合わされば、機械通訳の出来上がりです。ただ、今のところは、日本語のように文脈から考えて、言葉を補わなければいけないような言語の場合、機械翻訳の精度が人間翻訳より劣ることもあります。

しかし、ここもしかいつか機械が追いつくのかもしれません。このブログ記事を書いていたら、コトバテクノロジーズのニュースが飛び込んできて、そのようなツールの開発が進んでいることを知りました。どの程度のスピード感で機械翻訳が実務の場で活用されていくのか、どのように住み分けがなされていくのか、今後も注意して見ていきたいと思います。

また、字幕が出ない現場も当然あるわけなので、字幕に頼りすぎて通訳スキルそのものが落ちてしまわないように気をつけないといけないな、とも思いました。

編集後期

このブログ記事も、半分以上をMacBookの音声入力機能を使って書きました。音声入力最高!