Qwen3-TTS 台灣腔語音合成

🗣 聲音與文字

聲音 speaker

文字 text

🎭 語氣範例（一鍵套用語氣＋示範文字）

🎭 語氣與語速

語氣預設 style_preset（去 AI 念稿味；blog 朗讀建議選「朗讀」）情緒 instruct（免重訓；選「無」=原本語氣；填了會蓋過上面的預設）聲線模式（僅 Qwen3 有效；CosyVoice3 本即零樣本 ICL、會忽略此項）

語速 speed 1x

1=原速，>1 快、<1 慢

音高 pitch 0 半音

0=原音高，每格一個半音

⚙ 進階參數（穩定度 / 停頓 / 取樣 / seed）

lora_scale

temperature

標點停頓 punct 150 ms

句末與逗號（。，、！？．）後插靜音，預設 150，150–400 較自然，0=關閉

中文空白停頓 space 100 ms

中文字間空白（轉頓號）處插靜音，預設 100（比標點短），0=不插（仍保留頓號軟停頓）

max_new_tokens

取樣次數 best_of

0=關閉（單次、最快）；2–5=同句多次取樣選最乾淨那次，合成時間約 N 倍（易超過 100 秒逾時）

seed（隨機種子）

每次隨機（不固定）

響度正規化（讓不同聲音音量一致）

🕘 最近合成（存在本機瀏覽器，可一鍵回填參數重生）

🔤 臨時讀音字典（單次有效、不存檔；每行「詞=替換」）

🧩 API 片段（用目前設定產生 curl / Python，可一鍵複製）

curl

Python

可調參數說明

參數	範圍	預設	說明
lora_scale	0–1	留空=checkpoint	留空用合併好的最佳版；填值(建議0.2–0.5)改用 adapter 即時調強度。勿填 2.0
temperature	0–1.5	0.8	越高越隨機
top_p	0–1	0.85	核取樣：只從「累積機率達 top_p」的最可能字裡挑。越小越保守穩定、越大越多樣
top_k	1–200	30	只從「機率最高的 top_k 個字」裡挑。越小越穩、越大越有變化
repetition_penalty	>0–2	1.05	重複懲罰，不能是 0
max_new_tokens	16–10000	10000	約 12 token/秒；10000≈14分鐘。長文自動切段，每段各自套此上限
best_of	0–5	0（關閉）	同句多次取樣、選頻譜最乾淨（雜訊/破音最少）那次。0/1=單次最快；2–5 合成時間約 N 倍。注意 Cloudflare 100 秒會逾時(524)，長文＋高 best_of 易超時

超出範圍或無效值會自動改用預設（不會報錯），並顯示在上方狀態列。

上傳一段參考音檔即時克隆音色，不需訓練。5–15 秒乾淨人聲效果最佳。

參考音檔 ref_audio（wav / flac / mp3）

⬆ 可拖放音檔到此　·　建議 3–15 秒、乾淨單人、≥16kHz；逐字稿須與音檔內容一致。超過 30 秒會自動截斷並重新轉寫逐字稿

只用音色特徵（x_vector_only，不需逐字稿、較不像）

參考音檔逐字稿 ref_text 要合成的文字 text

temperature

語速 speed 1x

音高 pitch 0 半音

格式 format

max_new_tokens

響度正規化（音量一致）

💾 另存為預設聲音

克隆滿意後，可把這段參考音＋逐字稿存成「預設聲音」，之後直接在上方各分頁的聲音下拉選用（CosyVoice3 零樣本）。須先成功克隆一次才能存。

維護你用 ICL 克隆另存的「預設聲音」。這裡只列出 ICL 預設聲音；訓練聲音不在此（受保護不被誤刪）。

列出該聲音所有訓練版本（各 epoch 的 adapter＋合併 final），用同一段文字逐一合成做 A/B 比對，挑出最好聽的 epoch。

聲音 speaker 版本 checkpoint

lora_scale（僅 adapter 版生效）

temperature

語速 speed 1x

音高 pitch 0 半音

情緒 instruct（免重訓；選「無」=原本語氣）文字 text（建議所有版本用同一句比較）

提示：「設為預設」（把某 epoch 變成對外正式版）需要重新合併 adapter，屬於另一個動作，目前先做試聽比對。

上傳音檔，用 SenseVoice 辨識成文字（中英台混合 OK）。可選填「目標文字」自動算 CER 字錯誤率，驗證合成有沒有念對。

音檔 audio（wav / flac / mp3）目標文字 target_text（選填，用來算 CER 字錯誤率）

上傳音檔轉成你要的格式（ffmpeg 引擎、純 CPU 不佔 GPU）。支援 mp3 / m4a / wma / aac / ogg / flac / wav 互轉，影片（wmv / mp4）會自動抽音軌。

音檔 audio 輸出格式 target_format

上傳多個音檔合併成一個（ffmpeg、純 CPU 不佔 GPU）。串接＝首尾相接（依選取順序）；混音＝疊加同時播放（如人聲＋配樂）。不同格式/取樣率會自動統一。

音檔 audios（按住 Ctrl 一次選多個，至少 2 個）

合併方式

輸出格式

段間靜音 ms（串接用）

多角色對話一次合成、串接成單一音檔。腳本每行一句：角色：台詞（全形或半形冒號皆可）。輸入腳本後會自動列出角色並各配一個聲音，依需要調整後直接「生成 podcast」。文字自動套台灣繁體發音修正。

對話腳本 script（每行：角色：台詞）

節奏 tempo（一鍵語速＋停頓）

節奏＝速率/停頓；與「語氣預設」正交（語氣＝風格）

語速 speed（全域）1x

保音高（CV3 原生變速）；建議 0.85–1.15，1=原速

音高 pitch（全域）0 半音

0=原音高；每格一個半音

語氣預設（全域）

段間停頓 gap_ms

換人停頓 gap（換說話者）

句內標點 breath_pause

中文空白 space_pause

輸出格式

全域響度正規化（各角色音量一致）

編輯台灣腔發音修正表，存檔即時生效並寫入伺服器設定檔。整詞替換＝整個詞換成等義字或台灣拼音（如 軟體→软體、角色→ jiao3 se4 ，拼音前後保留空格）；多音字台灣讀音＝某字只在 g2pW 判定為台灣特有讀音時才強制該拼音（逗號可填多個）。

即時測試（打字看實際送進模型的版本）

整詞替換

原文	替換成

多音字台灣讀音

字	台灣音（逗號分隔，如 wei2）

`Ctrl`+`Enter`	合成目前分頁
`Esc`	取消進行中的合成 / 關閉此視窗
`Ctrl`+`1`…`9`	切換分頁
`Space`	播放 / 暫停最近的音檔
`?`	顯示 / 隱藏此速查表

🎙 台灣腔語音合成引擎載入中…

整詞替換

多音字台灣讀音

⌨ 鍵盤快捷鍵

🎙 台灣腔語音合成引擎載入中…🌙

整詞替換

多音字台灣讀音

⌨ 鍵盤快捷鍵

🎙 台灣腔語音合成引擎載入中…