未填時若伺服器已啟用驗證,呼叫會回 401。
1=原速,>1 快、<1 慢
0=原音高,每格一個半音
句末與逗號(。,、!?.)後插靜音,預設 150,150–400 較自然,0=關閉
中文字間空白(轉頓號)處插靜音,預設 100(比標點短),0=不插(仍保留頓號軟停頓)
0=關閉(單次、最快);2–5=同句多次取樣選最乾淨那次,合成時間約 N 倍(易超過 100 秒逾時)
| 參數 | 範圍 | 預設 | 說明 |
|---|---|---|---|
| lora_scale | 0–1 | 留空=checkpoint | 留空用合併好的最佳版;填值(建議0.2–0.5)改用 adapter 即時調強度。勿填 2.0 |
| temperature | 0–1.5 | 0.8 | 越高越隨機 |
| top_p | 0–1 | 0.85 | 核取樣:只從「累積機率達 top_p」的最可能字裡挑。越小越保守穩定、越大越多樣 |
| top_k | 1–200 | 30 | 只從「機率最高的 top_k 個字」裡挑。越小越穩、越大越有變化 |
| repetition_penalty | >0–2 | 1.05 | 重複懲罰,不能是 0 |
| max_new_tokens | 16–10000 | 10000 | 約 12 token/秒;10000≈14分鐘。長文自動切段,每段各自套此上限 |
| best_of | 0–5 | 0(關閉) | 同句多次取樣、選頻譜最乾淨(雜訊/破音最少)那次。0/1=單次最快;2–5 合成時間約 N 倍。注意 Cloudflare 100 秒會逾時(524),長文+高 best_of 易超時 |
超出範圍或無效值會自動改用預設(不會報錯),並顯示在上方狀態列。
上傳一段參考音檔即時克隆音色,不需訓練。5–15 秒乾淨人聲效果最佳。
克隆滿意後,可把這段參考音+逐字稿存成「預設聲音」,之後直接在上方各分頁的聲音下拉選用(CosyVoice3 零樣本)。須先成功克隆一次才能存。
維護你用 ICL 克隆另存的「預設聲音」。這裡只列出 ICL 預設聲音;訓練聲音不在此(受保護不被誤刪)。
列出該聲音所有訓練版本(各 epoch 的 adapter+合併 final),用同一段文字逐一合成做 A/B 比對,挑出最好聽的 epoch。
提示:「設為預設」(把某 epoch 變成對外正式版)需要重新合併 adapter,屬於另一個動作,目前先做試聽比對。
上傳音檔,用 SenseVoice 辨識成文字(中英台混合 OK)。可選填「目標文字」自動算 CER 字錯誤率,驗證合成有沒有念對。
上傳音檔轉成你要的格式(ffmpeg 引擎、純 CPU 不佔 GPU)。支援 mp3 / m4a / wma / aac / ogg / flac / wav 互轉,影片(wmv / mp4)會自動抽音軌。
上傳多個音檔合併成一個(ffmpeg、純 CPU 不佔 GPU)。串接=首尾相接(依選取順序);混音=疊加同時播放(如人聲+配樂)。不同格式/取樣率會自動統一。
多角色對話一次合成、串接成單一音檔。腳本每行一句:角色:台詞(全形或半形冒號皆可)。輸入腳本後會自動列出角色並各配一個聲音,依需要調整後直接「生成 podcast」。文字自動套台灣繁體發音修正。
節奏=速率/停頓;與「語氣預設」正交(語氣=風格)
保音高(CV3 原生變速);建議 0.85–1.15,1=原速
0=原音高;每格一個半音
編輯台灣腔發音修正表,存檔即時生效並寫入伺服器設定檔。整詞替換=整個詞換成等義字或台灣拼音(如 軟體→软體、角色→ jiao3 se4 ,拼音前後保留空格);多音字台灣讀音=某字只在 g2pW 判定為台灣特有讀音時才強制該拼音(逗號可填多個)。
| 原文 | 替換成 |
|---|
| 字 | 台灣音(逗號分隔,如 wei2) |
|---|
貼入一段文章,逐句合成 → ASR 辨識 → 自動比對,找出念歪的字(聽起來像別的字,如 顯→眼)。每字附同音字 / 簡體修正建議,聽過音檔確認後一鍵加入發音修正表。專抓「念成完全不同的字」;聲調差異 ASR 抓不到、仍需耳聽。
目前 GPU 合成佇列(每 1.5 秒自動刷新)。單張 GPU 一次只跑一筆,其餘排隊。排隊中取消=完全跳過、不耗 GPU;合成中取消=在下一個分段邊界(best_of 取樣間 / podcast 逐句間)停,單句一次合成無法即時中斷,會等該句跑完。
| 類型 | 聲音 | 文字 | 狀態 | 時間 |
|---|