🎙 台灣腔語音合成引擎載入中…

完整 API 文件: /docs · /llms.txt

🔑 API 金鑰(伺服器有設 TTS_API_KEY 時才需填)

未填時若伺服器已啟用驗證,呼叫會回 401。

🗣 聲音與文字
🎭 語氣範例(一鍵套用語氣+示範文字)
🎭 語氣與語速

1=原速,>1 快、<1 慢

0=原音高,每格一個半音

⚙ 進階參數(穩定度 / 停頓 / 取樣 / seed)

句末與逗號(。,、!?.)後插靜音,預設 150,150–400 較自然,0=關閉

中文字間空白(轉頓號)處插靜音,預設 100(比標點短),0=不插(仍保留頓號軟停頓)

0=關閉(單次、最快);2–5=同句多次取樣選最乾淨那次,合成時間約 N 倍(易超過 100 秒逾時)

🕘 最近合成(存在本機瀏覽器,可一鍵回填參數重生)
🔤 臨時讀音字典(單次有效、不存檔;每行「詞=替換」)
🧩 API 片段(用目前設定產生 curl / Python,可一鍵複製)

  

  
  
  
可調參數說明
參數範圍預設說明
lora_scale0–1留空=checkpoint留空用合併好的最佳版;填值(建議0.2–0.5)改用 adapter 即時調強度。勿填 2.0
temperature0–1.50.8越高越隨機
top_p0–10.85核取樣:只從「累積機率達 top_p」的最可能字裡挑。越小越保守穩定、越大越多樣
top_k1–20030只從「機率最高的 top_k 個字」裡挑。越小越穩、越大越有變化
repetition_penalty>0–21.05重複懲罰,不能是 0
max_new_tokens16–1000010000約 12 token/秒;10000≈14分鐘。長文自動切段,每段各自套此上限
best_of0–50(關閉)同句多次取樣、選頻譜最乾淨(雜訊/破音最少)那次。0/1=單次最快;2–5 合成時間約 N 倍。注意 Cloudflare 100 秒會逾時(524),長文+高 best_of 易超時

超出範圍或無效值會自動改用預設(不會報錯),並顯示在上方狀態列。

上傳一段參考音檔即時克隆音色,不需訓練。5–15 秒乾淨人聲效果最佳。

⬆ 可拖放音檔到此 · 建議 3–15 秒、乾淨單人、≥16kHz;逐字稿須與音檔內容一致。超過 30 秒會自動截斷並重新轉寫逐字稿
💾 另存為預設聲音

克隆滿意後,可把這段參考音+逐字稿存成「預設聲音」,之後直接在上方各分頁的聲音下拉選用(CosyVoice3 零樣本)。須先成功克隆一次才能存。

維護你用 ICL 克隆另存的「預設聲音」。這裡只列出 ICL 預設聲音;訓練聲音不在此(受保護不被誤刪)。

列出該聲音所有訓練版本(各 epoch 的 adapter+合併 final),用同一段文字逐一合成做 A/B 比對,挑出最好聽的 epoch。

提示:「設為預設」(把某 epoch 變成對外正式版)需要重新合併 adapter,屬於另一個動作,目前先做試聽比對。

上傳音檔,用 SenseVoice 辨識成文字(中英台混合 OK)。可選填「目標文字」自動算 CER 字錯誤率,驗證合成有沒有念對。

上傳音檔轉成你要的格式(ffmpeg 引擎、純 CPU 不佔 GPU)。支援 mp3 / m4a / wma / aac / ogg / flac / wav 互轉,影片(wmv / mp4)會自動抽音軌。

上傳多個音檔合併成一個(ffmpeg、純 CPU 不佔 GPU)。串接=首尾相接(依選取順序);混音=疊加同時播放(如人聲+配樂)。不同格式/取樣率會自動統一。

多角色對話一次合成、串接成單一音檔。腳本每行一句:角色:台詞(全形或半形冒號皆可)。輸入腳本後會自動列出角色並各配一個聲音,依需要調整後直接「生成 podcast」。文字自動套台灣繁體發音修正。

節奏=速率/停頓;與「語氣預設」正交(語氣=風格)

保音高(CV3 原生變速);建議 0.85–1.15,1=原速

0=原音高;每格一個半音

編輯台灣腔發音修正表,存檔即時生效並寫入伺服器設定檔。整詞替換=整個詞換成等義字或台灣拼音(如 軟體→软體角色→ jiao3 se4 ,拼音前後保留空格);多音字台灣讀音=某字只在 g2pW 判定為台灣特有讀音時才強制該拼音(逗號可填多個)。

整詞替換

原文替換成

多音字台灣讀音

台灣音(逗號分隔,如 wei2)

貼入一段文章,逐句合成 → ASR 辨識 → 自動比對,找出念歪的字(聽起來像別的字,如 顯→眼)。每字附同音字 / 簡體修正建議,聽過音檔確認後一鍵加入發音修正表。專抓「念成完全不同的字」;聲調差異 ASR 抓不到、仍需耳聽。

目前 GPU 合成佇列(每 1.5 秒自動刷新)。單張 GPU 一次只跑一筆,其餘排隊。排隊中取消=完全跳過、不耗 GPU;合成中取消=在下一個分段邊界(best_of 取樣間 / podcast 逐句間)停,單句一次合成無法即時中斷,會等該句跑完。

類型聲音文字狀態時間

⌨ 鍵盤快捷鍵

Ctrl+Enter合成目前分頁
Esc取消進行中的合成 / 關閉此視窗
Ctrl+19切換分頁
Space播放 / 暫停最近的音檔
?顯示 / 隱藏此速查表

在輸入框內打字時快捷鍵不會觸發。點空白處關閉。