Whisper の出力重複問題の解決策
最近、Memo のフィードバックで、音声文字起こしで出力が重複する問題に関する報告が多く寄せられています。フィードバック内容は以下の通りです:
- 文字起こしでよくこの問題が発生します.....同じフレーズが狂ったように繰り返されます....
- 8分30秒の動画で、4分頃から最後まで同じ内容が繰り返されます
- 認識時に一つのフレーズが繰り返されるバグが最近ますます深刻になっているようです。以前は正常に文字起こしできたものも、今では再度文字起こしができません。
- large zh で長い動画を文字起こしできません。数分後から同じ内容が繰り返され、フリーズします。VRAM 8GB
- 一つのフレーズの字幕が繰り返し認識されるバグが発生することはありますか?
一般的な対処法
フィードバックに基づき、以下のような状況でハルシネーション(幻覚)による重複問題が頻繁に発生することがわかりました。ただし、音声品質やデバイス性能の違いにより、統一的な解決策を提供することは困難です。
Large-v3 モデルでの文字起こし
Large-v3 モデルは Large-v2 や Large-v1 と比べて問題が発生する確率が非常に高くなっています。これら3つの違いについての質問もありますが、実際には大きな違いはありません。最大の違いは Large-v3 が広東語の文字起こしに対応していることです。
推奨対策:モデルを変更して再度文字起こしを行う
中国語やマイナー言語のコンテンツの文字起こし
Whisper の中国語コーパスは英語より少ないことは確かです。Whisper は前の文字起こし結果を現在の文字起こしのヒントとして使用する仕組みを持っているため、現在の部分が認識できない場合、前の結果に基づいて適当な内容を生成してしまいます。
推奨対策:中国語モデルに変更して文字起こしを行うか、他のモデルを順番に試してみる
会議の長い無音部分、映画、音楽などが混在する音声
Whisper の推論方式に基づくと、音声に混在する音が多いほど、文字起こしが失敗する確率も高くなります。
推奨対策:サードパーティツールを使用して音声を処理する。「音声抽出」でGoogle検索して適切なツールを見つけることができます。
デバイス性能不足
根本的な問題は、モデル推論に必要な性能リソースが不足していることで、ハルシネーションが発生します。
推奨対策:文字起こしの詳細設定で音声検出を有効にする、モデルを変更する、より高性能なマシンを使用する。
言語選択の誤り、英語動画を中国語で文字起こし
英語の動画の場合、中国語を選択しないでください。AI は一定の推論を行った後、ハルシネーションを起こすことがあります。
推奨対策:対象言語に合わせて文字起こしを行い、字幕ページで右上の翻訳機能を使用する。
Memo AI の解決策
皆さんは「Memo AI はこのようなハルシネーションの重複問題をどのように解決するのか?」と疑問に思うでしょう。正直に言って、これは難しい問題です。企業向けサービスは安定した高性能サーバーで実行されるため、問題が発生する確率はローカルデバイスよりもはるかに低くなります。ユーザーのデバイス設定パラメータやシステムバージョンは統一されていないため、標準化は困難です。しかし、私たちもいくつかの解決策を試みています。
プロンプト
以下は効果が期待できるテスト済みのプロンプトです:
ignore the background sound of the music and only transcribe the part with the human voice.
ignore noise, white space, musical background sounds, and transcribe the part that speaks.
This is a meeting, transcribe the voice of the conversation in the meeting and ignore the noise
具体的な使用方法は下図を参照してください。
音声検出
Whisper のハルシネーションが無音区間によって引き起こされる場合、音声活動検出と組み合わせることで比較的容易に解決できるはずです。下図のように、文字起こし時の詳細設定で音声検出を有効にしてください。
音声検出にも、音声部分の一部を見逃したり、背景ノイズが大きい部分でハルシネーションが発生したりするなどの問題があります。
区間文字起こし
ハルシネーションが発生する部分は、右クリック - 選択で、文字起こしが必要な部分を選択して再度文字起こしを行うこともできます。
音声分離
これが最も理想的な方法ですが、調査の結果、この種の音声分離は比較的時間がかかり、性能の低いマシンでは1時間の動画の分離に1時間かかることがあり、ローカルでの文字起こし速度の観点からは好ましくありません。