AI語音 | 程式猿 AFA 的隨手筆記

誰來替 AI 說話？2026 語音模型大戰

AI 語音工具以前常被拿來做旁白或配音，但現在競爭已經不只是「能不能念出來」，而是自然度、情緒、角色一致性、速度、授權與本地部署能力。這支影片整理 2026 年語音模型的主要戰場。影片連結：https://www.youtube.com/watch?v=gydef1ulB8k 語音模型比的是什麼自然度：聽起來是否像真人。可控性：能不能控制語氣、停頓與情緒。穩定度：長文字是否會跑音或斷句怪異。部署方式：雲端服務或本地模型。創作者可以怎麼看短影音旁白重視速度與一致性。長影片旁白重視穩定度與可剪輯性。商業專案要特別注意授權與聲音來源。後續觀察語音模型會越來越像內容製作流程的一部分，而不是單一工具。小結這篇先把影片內容整理成可搜尋、可回來查的文字筆記。後續如果我有補充更多實測資料、指令或範例，也會再把文章更新得更完整。

2026 最強開源 TTS｜Qwen3-TTS 聲音克隆 + ComfyUI 完整教學

如果你想研究開源 TTS，Qwen3-TTS 是很值得測試的一個方向。它不只可以做文字轉語音，也讓聲音克隆、語氣控制與工作流整合有更多可能。這篇把影片中的資源與流程整理成文字。影片連結：https://www.youtube.com/watch?v=0iS_QuERNI8 先從 Demo 認識模型 Hugging Face Space：https://huggingface.co/spaces/Qwen/Qwen3-TTS 官方介紹：https://qwen.ai/blog?id=qwen3tts-0115 為什麼搭配 ComfyUI 用節點式方式組合輸入、模型與輸出。方便把語音生成放進更大的影音工作流。適合反覆測試不同文字、音色與參數。聲音克隆注意事項請使用自己有權利使用的聲音素材。公開發布前確認模型與工具授權。先用短句測試，再處理長稿。小結這篇先把影片內容整理成可搜尋、可回來查的文字筆記。後續如果我有補充更多實測資料、指令或範例，也會再把文章更新得更完整。

揭秘 NotebookLM 語音功能：技術與影響

這集聊的是 Google NotebookLM 的語音功能，尤其是音訊總覽帶來的變化。它不是單純把文字轉成語音，而是把一份資料整理成像 Podcast 一樣的對話內容。影片連結：https://www.youtube.com/watch?v=iIsY4BFlaxc NotebookLM 的重點不只是筆記很多人第一次看到 NotebookLM，會把它當成「可以上傳文件的聊天機器人」。但真正值得注意的是，它把資料整理、摘要、提問和語音輸出放在同一個工作流裡。這代表使用者不一定要一直盯著螢幕讀資料，也可以把文件變成適合通勤、走路、整理家務時吸收的內容。音訊總覽為什麼有感音訊總覽有感的原因，在於它把冷冰冰的文字變成更接近人類討論的形式。比起傳統 TTS 逐字念稿，它更像兩個主持人在幫你整理內容：會先抓出主題脈絡會把艱澀段落改成比較口語的說法會用對話節奏降低理解門檻適合快速掌握一份資料的重點這種自然感，是它和一般文字摘要工具最大的差異。適合怎麼用 NotebookLM 的語音功能很適合拿來處理以下內容：長篇報告或研究資料課堂講義與會議紀錄產品文件與技術白皮書自己寫的文章草稿想重複吸收的學習材料如果你常常存了很多資料卻沒時間讀，這類工具可以把「閱讀」轉成「聆聽」，讓吸收資訊的場景變多。需要注意的地方音訊摘要很方便，但它仍然是 AI 生成內容。重要資訊最好回到原始資料確認，尤其是數字、引用、法律、醫療、投資或正式報告。它適合做第一輪理解與複習，不適合完全取代原文判讀。小結 NotebookLM 的語音功能代表一個很重要的方向：未來的筆記工具不只是儲存資料，而是會主動幫你重組資料，讓你用不同方式吸收。對學生、創作者、研究者和知識工作者來說，這會是很值得觀察的 AI 工具類型。