MemoAI プロンプトの使用ガイド
Memo の音声文字起こしは、単に音声を入力して文字に変換するだけではありません。Memo のモデルは Whisper をベースにしており、Whisper はプロンプト機能を提供しています。その性能は GPT-2 レベルと考えられています。
有効範囲
プロンプトは一般的に Medium、Large モデルでのみ有効です。他のモデルでは効果が不安定で、予測が難しい場合があります。
一般的な使用シーン
以下の日本語と英語のどちらかを選択できます。英語の方が効果が高いです。
句読点の追加
prompt
これは xx に関する講義の内容です。出力時に句読点を付けてください。 // 日本語
This is a lecture on xx, please bring punctuation marks when outputting. // English
専門用語の導入
プロンプトを通じて専門用語を導入し、AI モデルの認識精度を向上させます。
prompt
This is a lecture on xx, There are the following words "computer" and "shrimp dumpling".
バックグラウンドミュージック付きの歌
prompt
バックグラウンドミュージックを無視し、歌声のみを文字起こししてください。
文の区切りを正確に
prompt
Please add a period.
まとめと関連資料
要するに、問題が発生した場合は、まずプロンプトを使用して AI モデルに音声の処理方法を指示することを検討してください。