各位觀眾朋友大家好,這裡是程式猿阿發的頻道!👋

首先很開心大家點進這篇文章。我的頻道主要介紹實用的手機 App、網站工具,並分享給大家。

今天想要分享的主題是關於 Google 最近很紅的 NotebookLM。大家都知道它原本可以上傳 PDF 或網站,讓 AI 回答相關問題。前陣子它推出了一個超強功能,可以將你的文件直接生成一個「雙人對話 Podcast」,講得非常生動!

但是!有一個最大的痛點:它當時只支援英文。 😩

沒多久後,網路上出現了一個開源方案(類似 PodLM 的專案),可以透過 OpenAI 的 API,將原本的英文對話模式改成支援 中文!這位作者非常有良心,將專案開源讓我們操作。

今天這篇教學,我就要手把手教大家如何在 Mac 電腦上部署這個專案,製作出屬於你的中文 AI Podcast!


🎧 效果試聽

在開始教學前,先讓大家聽聽看我用這個工具製作的成品。這是一段關於「認知障礙與失智症區別」的對話:

男聲 (Nova):「歡迎大家收聽本次播客,我是諾。今天我們要探討一個重要的話題…」 女聲:「是的,這個話題非常重要…很多時候人們常把認知障礙和失智症混為一談…」

聽起來是不是非常自然?這可是透過 OpenAI 的 API 串接生成的喔!


🛠️ 準備工作

這個教學需要使用終端機(Terminal)與一些開發工具,請大家耐心跟著步驟操作。

必備工具:

  1. Mac 電腦(本教學以 Apple M 系列晶片為例)。
  2. OpenAI API Key:需要有付費額度的 OpenAI 帳號。
  3. VS Code:用於編輯程式碼。
  4. 基礎環境:Miniconda, Homebrew, FFmpeg(下面會教怎麼裝)。

Step 1:安裝基礎環境

首先,我們需要安裝幾個必要的運行環境。

1. 安裝 Miniconda

前往 Miniconda 官網,下載適用於 macOS (Apple Silicon) 的版本並安裝。

2. 安裝 Homebrew 與 FFmpeg

打開你的終端機(Terminal),輸入 Homebrew 的安裝指令(請至 Homebrew 官網複製最新指令)。安裝好 Homebrew 後,利用它來安裝音訊處理工具 FFmpeg

brew install ffmpeg
  1. 下載專案與必要檔案 這部分比較細節,因為原作者的設定檔有些地方沒講清楚,我幫大家整理了一個修正過的版本。

前往我的頁面下載懶人包檔案(包含 TTS.py 等修正檔)。

將下載的壓縮檔解壓縮備用。

Step 2:下載專案與建立 Python 環境

  1. Clone 專案 在桌面建立一個資料夾(例如 Code),在終端機進入該資料夾,並執行 git clone 指令將專案下載下來(詳細網址請參考影片說明)。

下載後,將剛剛懶人包裡的 TTS.py 等檔案,複製並覆蓋到剛剛下載的專案資料夾中。

  1. 建立 Conda 虛擬環境 我們需要一個乾淨的 Python 環境來執行它。在終端機輸入:

Bash

建立一個名為 pod 的環境 (名稱可自訂)

conda create -n pod python=3.10 3. 啟動環境 建立完成後,輸入以下指令進入該環境(成功的話,終端機最前面會出現 (pod)):

Bash

conda activate pod 4. 安裝 Python 套件 在環境中,執行專案提供的安裝指令,一次安裝所有需要的工具:

Bash

pip install -r requirements.txt 注意:如果在執行過程中發現錯誤,通常是少了 flask 或 openai 套件,可以手動補安裝:

Bash

pip install openai flask Step 3:設定 Config 與 API Key 這是最重要的一步!我們需要設定你的 OpenAI 金鑰。

用 VS Code 開啟整個專案資料夾。

找到 config.py (或 config.demo.py 改名而來) 以及 TTS.py。

填入 API Key:找到 API_KEY 的欄位,填入你在 OpenAI 申請的 sk-xxxx 開頭金鑰。

設定模型與網址:

將模型改為 gpt-4o-mini(性價比高,速度快)。

確認 Base URL 是 OpenAI 的官方網址。

選擇聲音:

在 config.py 中可以設定兩位講者的聲音。

OpenAI 提供六種聲音,推薦男聲可以用 Nova,女聲可用 Shimmer 或其他。

記得按 Command + S 存檔!

Step 4:啟動服務 一切就緒後,我們需要開 三個 終端機視窗,分別執行三個不同的服務。記得這三個視窗都要先執行 conda activate pod 進入環境喔!

視窗一:啟動 API

Bash

python api.py 視窗二:啟動 Server

Bash

python server.py 視窗三:啟動 TTS 生成服務

Bash

python tts.py Step 5:開始製作 Podcast! 當三個服務都跑起來沒報錯後,打開瀏覽器,進入終端機顯示的 Localhost 網址(通常是 http://127.0.0.1:xxxx)。

你會看到一個簡潔的介面。

貼上網址:找一篇你想聽的網路文章(例如新聞、部落格),將網址貼入輸入框。

點擊 「提交任務」。

稍等片刻,系統會先爬取文字,接著透過 GPT 生成對話劇本,最後轉成語音。

完成後,你就能直接在網頁上播放這段由 AI 生成的中文 Podcast 啦!效果就跟 NotebookLM 一樣,能夠幫你快速吸收長篇文章的重點。

總結 雖然這個開源專案的安裝步驟比直接用 NotebookLM 麻煩一點,需要用到終端機,但它完美解決了「不支援中文」的問題,而且可以自由選擇 OpenAI 的高品質人聲,真的非常實用!

如果你是通勤族,或者喜歡用「聽」來吸收資訊的朋友,強烈建議試著動手架設看看。

如果今天的教學對你有幫助,歡迎在底下留言告訴我你的使用心得!

喜歡我的影片別忘了按讚、訂閱、分享,並開啟小鈴鐺,這樣才不會錯過最新的軟體教學喔!我是 AFA,我們下次見!👋