各位觀眾朋友大家好,這裡是程式猿阿發的頻道!👋
首先很開心大家點進這篇文章。我的頻道主要介紹實用的手機 App、網站工具,並分享給大家。
今天想要分享的主題是關於 Google 最近很紅的 NotebookLM。大家都知道它原本可以上傳 PDF 或網站,讓 AI 回答相關問題。前陣子它推出了一個超強功能,可以將你的文件直接生成一個「雙人對話 Podcast」,講得非常生動!
但是!有一個最大的痛點:它當時只支援英文。 😩
沒多久後,網路上出現了一個開源方案(類似 PodLM 的專案),可以透過 OpenAI 的 API,將原本的英文對話模式改成支援 中文!這位作者非常有良心,將專案開源讓我們操作。
今天這篇教學,我就要手把手教大家如何在 Mac 電腦上部署這個專案,製作出屬於你的中文 AI Podcast!
🎧 效果試聽
在開始教學前,先讓大家聽聽看我用這個工具製作的成品。這是一段關於「認知障礙與失智症區別」的對話:
男聲 (Nova):「歡迎大家收聽本次播客,我是諾。今天我們要探討一個重要的話題…」 女聲:「是的,這個話題非常重要…很多時候人們常把認知障礙和失智症混為一談…」
聽起來是不是非常自然?這可是透過 OpenAI 的 API 串接生成的喔!
🛠️ 準備工作
這個教學需要使用終端機(Terminal)與一些開發工具,請大家耐心跟著步驟操作。
必備工具:
- Mac 電腦(本教學以 Apple M 系列晶片為例)。
- OpenAI API Key:需要有付費額度的 OpenAI 帳號。
- VS Code:用於編輯程式碼。
- 基礎環境:Miniconda, Homebrew, FFmpeg(下面會教怎麼裝)。
Step 1:安裝基礎環境
首先,我們需要安裝幾個必要的運行環境。
1. 安裝 Miniconda
前往 Miniconda 官網,下載適用於 macOS (Apple Silicon) 的版本並安裝。
2. 安裝 Homebrew 與 FFmpeg
打開你的終端機(Terminal),輸入 Homebrew 的安裝指令(請至 Homebrew 官網複製最新指令)。安裝好 Homebrew 後,利用它來安裝音訊處理工具 FFmpeg:
brew install ffmpeg
- 下載專案與必要檔案 這部分比較細節,因為原作者的設定檔有些地方沒講清楚,我幫大家整理了一個修正過的版本。
前往我的頁面下載懶人包檔案(包含 TTS.py 等修正檔)。
將下載的壓縮檔解壓縮備用。
Step 2:下載專案與建立 Python 環境
- Clone 專案 在桌面建立一個資料夾(例如 Code),在終端機進入該資料夾,並執行 git clone 指令將專案下載下來(詳細網址請參考影片說明)。
下載後,將剛剛懶人包裡的 TTS.py 等檔案,複製並覆蓋到剛剛下載的專案資料夾中。
- 建立 Conda 虛擬環境 我們需要一個乾淨的 Python 環境來執行它。在終端機輸入:
Bash
建立一個名為 pod 的環境 (名稱可自訂)
conda create -n pod python=3.10 3. 啟動環境 建立完成後,輸入以下指令進入該環境(成功的話,終端機最前面會出現 (pod)):
Bash
conda activate pod 4. 安裝 Python 套件 在環境中,執行專案提供的安裝指令,一次安裝所有需要的工具:
Bash
pip install -r requirements.txt 注意:如果在執行過程中發現錯誤,通常是少了 flask 或 openai 套件,可以手動補安裝:
Bash
pip install openai flask Step 3:設定 Config 與 API Key 這是最重要的一步!我們需要設定你的 OpenAI 金鑰。
用 VS Code 開啟整個專案資料夾。
找到 config.py (或 config.demo.py 改名而來) 以及 TTS.py。
填入 API Key:找到 API_KEY 的欄位,填入你在 OpenAI 申請的 sk-xxxx 開頭金鑰。
設定模型與網址:
將模型改為 gpt-4o-mini(性價比高,速度快)。
確認 Base URL 是 OpenAI 的官方網址。
選擇聲音:
在 config.py 中可以設定兩位講者的聲音。
OpenAI 提供六種聲音,推薦男聲可以用 Nova,女聲可用 Shimmer 或其他。
記得按 Command + S 存檔!
Step 4:啟動服務 一切就緒後,我們需要開 三個 終端機視窗,分別執行三個不同的服務。記得這三個視窗都要先執行 conda activate pod 進入環境喔!
視窗一:啟動 API
Bash
python api.py 視窗二:啟動 Server
Bash
python server.py 視窗三:啟動 TTS 生成服務
Bash
python tts.py Step 5:開始製作 Podcast! 當三個服務都跑起來沒報錯後,打開瀏覽器,進入終端機顯示的 Localhost 網址(通常是 http://127.0.0.1:xxxx)。
你會看到一個簡潔的介面。
貼上網址:找一篇你想聽的網路文章(例如新聞、部落格),將網址貼入輸入框。
點擊 「提交任務」。
稍等片刻,系統會先爬取文字,接著透過 GPT 生成對話劇本,最後轉成語音。
完成後,你就能直接在網頁上播放這段由 AI 生成的中文 Podcast 啦!效果就跟 NotebookLM 一樣,能夠幫你快速吸收長篇文章的重點。
總結 雖然這個開源專案的安裝步驟比直接用 NotebookLM 麻煩一點,需要用到終端機,但它完美解決了「不支援中文」的問題,而且可以自由選擇 OpenAI 的高品質人聲,真的非常實用!
如果你是通勤族,或者喜歡用「聽」來吸收資訊的朋友,強烈建議試著動手架設看看。
如果今天的教學對你有幫助,歡迎在底下留言告訴我你的使用心得!
喜歡我的影片別忘了按讚、訂閱、分享,並開啟小鈴鐺,這樣才不會錯過最新的軟體教學喔!我是 AFA,我們下次見!👋