Whisper 輸出重複問題解決方案

最近 Memo 的反饋中，有許多關於轉寫音頻出現重複輸出的問題。反饋內容如下：

"轉寫經常遇到這個問題...瘋狂重複一句話..."
"影片八分半，從四分鐘左右就一直在重複，直到結束。"
"識別的時候卡在一句話一直重複，這個 bug 好像現在越來越嚴重了。一些以前能正常轉寫的，現在重新轉寫都不行了。"
"large zh 無法轉錄長視頻，幾分鐘之後就會不斷重複卡死，顯存 8G。"
"請問一下，你們會有識別一句話字幕一直重複的 bug 嗎？"

常見操作

根據反饋，我總結了以下幾種情況會經常發生幻覺重複問題，但請注意：由於音頻品質和設備性能有差異，無法提供統一標準答案。

使用 Large-v3 模型轉寫

Large-v3 模型出現問題的概率遠高於 Large-v2 和 Large-v1。當然有人會問，這三者有什麼區別？實際上沒有太大區別，最大的區別就是 Large-v3 支援粵語轉寫。

推薦方案： 更換模型重新轉寫。

轉寫中文或小語種內容

Whisper 的中文語料明顯少於英文語料。Whisper 採用了一種利用前序轉錄結果來提示當前轉錄結果的方法，因此如果無法正確識別內容，就會開始依賴前序結果胡編亂造。

推薦方案： 更換中文模型轉寫，或者逐個嘗試其他模型。

會議長段空白、電影或混雜音頻

基於 Whisper 的推理方式，如果音頻中混雜的聲音太多，轉寫失敗的概率也會增加。

推薦方案： 使用第三方工具對音頻進行處理，可以谷歌搜尋「人聲提取」來獲取相應的工具。

設備性能不足

核心問題在於模型推理需要的資源不足，導致幻覺。

推薦方案： 在轉寫高級設置中打開語音檢測，切換模型或更換性能更好的機器。

選錯語言，將英文視頻轉寫成中文

如果是英文視頻，不要選擇中文。AI 推理到一定程度就會出現幻覺。

推薦方案： 根據音頻實際語言選擇相應語言轉寫，然後進入字幕頁面，點擊右上角進行翻譯。

Memo AI 解決方案

很多人會問，Memo AI 如何解決這種幻覺重複問題？坦白說很難，因為企業級服務本來運行在穩定高性能的伺服器中，出問題的概率遠低於本機設備。每個人的設備配置參數、系統版本都不統一，很難做到標準化。但我們也嘗試了一些方案。

提示詞

以下是我測試可能有效的提示詞：

ignore the background sound of the music and only transcribe the part with the human voice.

ignore noise, white space, musical background sounds, and transcribe the part that speaks.

This is a meeting, transcribe the voice of the conversation in the meeting and ignore the noise

具體使用請參考下圖。

啟用 Memo AI 提示詞

語音檢測

如果幻覺是由於空白時間段導致的，配合語言活動檢測應該相對容易解決。參考下圖轉寫過程中，在高級設置中啟用語音檢測。

啟用 Memo AI 語音檢測

語音檢測也會有一些小問題，例如部分有聲部分可能會被錯漏，背景音嘈雜的部分仍然會出現幻覺。

區域轉寫

對於部分有幻覺的地方，可以通過右鍵選擇並勾選需要轉寫的部分重新轉寫。

啟用 Memo AI 區域轉寫

人聲分離

這是最理想的方式，但我們調研發現，人聲分離方式相對耗時，部分低性能設備分離一小時的視頻需要一小時，這對於本地轉寫速度並不友好。

Whisper 輸出重複問題解決方案 ​

常見操作 ​

使用 Large-v3 模型轉寫 ​

轉寫中文或小語種內容 ​

會議長段空白、電影或混雜音頻 ​

設備性能不足 ​

選錯語言，將英文視頻轉寫成中文 ​

Memo AI 解決方案 ​

提示詞 ​

語音檢測 ​

區域轉寫 ​

人聲分離 ​