如何用 Sora 2 + n8n AI 代理,把影片成本降6倍、產量放大10倍?完整新手實作解析
導言:Sora 2正席捲網路,能把文字、圖片、名人臉孔直接變成可上線的短影片。Nate Herk 在教學影片中示範如何把 Sora 2 與自動化工具 n8n(他稱為 NADN)串接,聲稱可以「取得10倍產出、更高品質、無浮水印,且透過 Key.ai 使用 Sora 2 比 OpenAI 直接呼叫便宜6倍」。本文將從連線設定、範例工作流程、提示工程到錯誤處理逐步解析,並以數據與引言突顯關鍵步驟,幫助你把這套系統從 Proof‑of‑Concept 做到可量產化。
- 關鍵數據:Key.ai 對 Sora 2 的收費為 1.5 美分/秒($0.015/sec);相比之下,FAL / OpenAI 為 10 美分/秒($0.10/sec)。
- 換算:10 秒影片在 Key.ai 僅需 $0.15;在 FAL/OpenAI 則約 $1.00 —— 相當於「6 倍」成本優勢。
- Nate 指出:「如果你用 Key.ai,這 10 秒的影片只會花 15 美分,而在 Fowl 或 OpenAI 那邊會花到 1 塊美元。」(原話:“If we make a 10‑second video, that's only going to cost us 15. Whereas on Fowl or OpenAI, that 10‑second video would cost us a dollar.”)
- 實務建議:註冊 Key.ai 後先充值少量(例如 $5)測試即可,並在平台取得 API key 用於自動化流程。
2. 在 n8n 裡的 API 串接核心步驟(一步步)
- 流程概述:在 Key.ai 的 Model Marketplace 找到 Sora 2(text-to-video、image-to-video、Pro、storyboard 等型式),複製 request 的 curl 範例,然後在 n8n 用 HTTP Request 節點選「Import curl」自動填入。
- 驗證與安全:
- 將 Authorization header 設為 Bearer
(注意空格),建議在 n8n 建立一個通用憑證(generic header),命名為例如 keyai,以免每次重複貼 API Key。Nate 示範:「為名稱輸入 authorization,值為 capital B bearer space + API key」,然後儲存為 keyai。 - 必備欄位範例(JSON body 範圍):
- model: e.g., "sora-2-text-to-video" 或 "sora-2-image-to-video"
- prompt: 文字提示(必填)
- aspect_ratio: 可選(portrait/landscape)
- number_of_frames: 10 或 15(可選)
- remove_watermark: true / false(可移除浮水印)
- image_urls:(image→video 時需為公開可存取的 URL)
3. 非同步處理模式:Task ID + Polling(如何確保影片產出完成)
- 兩階段請求模式:
1) 發送產生請求 → 回傳 task_id(代表已排入生成)
2) 以 query task endpoint 用 task_id 持續查詢狀態,直到 state == "success"(或處理 "failed") - Nate 示範 Polling 的作法:每 10 秒做一次狀態檢查直到成功。優點是避免固定等待時間被誤判(如單純等待 4 分鐘可能不足或浪費),缺點是會造成多次 API 查詢。
- 實測數據範例:Nate 的紀錄顯示過去執行時間包括 195s、227s;一支任務實際經歷 18 次檢查約 180s;Storyboard 類型任務可能長達 500–700 秒(或更久,示範中出現 740 秒、甚至 35 分鐘的情形)。
4. 範例解析:文字→影片(text-to-video)
- 最小測試:只用「a video of a young man throwing a coffee mug against the wall」這類簡短描述會得到粗糙輸出(慢動作、聲音不同步)。Nate 指出:「你真的不能期待沒有好提示就得到好結果。」
- 重要參數:aspect_ratio(若要 TikTok/Reels 選 portrait)、number_of_frames(10 或 15)、remove_watermark=true。
- 結果觀察:在加入完整提示工程前,影片可能「慢、聲音怪」,但基本功能完整(可下載有 / 無浮水印的兩個 URL)。
5. 進階應用一:圖片→影片(image-to-video)與 UGC 廣告自動化價值
- 工作流程差異:將 model 改為 image-to-video,於 body 傳入 image_urls(公開 URL),並在 prompt 中指定「產品不應改變、必須與來源圖一致」。
- UGC 廣告關鍵:Nate 以 Curl Cream(假想產品)示範,生成「真人風格 selfie‑style 的女性在車內推薦產品」影片,並指定台詞:「I absolutely love this curl cream. It keeps my hair bouncy…」
- 限制與觀察:
- 來源圖不得為真實人物(Sora 2 會拒絕 realistic person 的圖片);Nate:「you can't have it be a person in the image」——V3 在某些情況下更寬鬆。
- 第一個畫面往往會顯示原始靜態圖(首毫秒為原圖),目前可能需後製裁切。
- 實務價值:可持續以自家產品圖產出大量 UGC 影片(省去僱演員、場景、錄音等成本)。
6. 進階應用二:名人 Cameos 與故事板(storyboards)
- Cameos:Sora 平台上使用者可上傳「cameo」資料,公開互動後他人即可透過 username(例如 Sam A)在生成影片時指定該名人的臉部/聲音風格。Nate 示範 Sam Altman 的 cameo,影片「看起來像他、聲音也近似」,但系統對名人使用會較敏感、會拒絕較大或奇怪的請求(會有內容限制)。
- Storyboard:可以把一支影片分成多個 scene,並對每個場景指定時長,總時長可選 10、15 或 25 秒,且各場景時長需加總為總時長。Nate 示範用三個 scene 且維持同一角色的一致性(例如「青蛙找尋寶藏」),但 Storyboard 任務通常是最耗時(示範中有 500–700s、甚至 35分鐘的情況)。
- 風險:Key.ai 在高流量時段或複雜 Storyboard 請求可能回 500 Internal Server Error。
7. 提示工程(Prompting):用 AI Agent 自動把草稿變成專業攝影指令
- 原理:在 n8n 中建立一個「提示工程 AI 代理」(agent),系統提示(system prompt)會要求該代理扮演「專業 AI 影片提示工程師」,把簡短的原始概念自動擴充為高度細節化的影片提示。Nate 的規則包含必須描述:主要對象(外觀、服裝、年齡、表情、動作)、場景(位置、背景、光線、時間)、攝影風格(鏡頭角度、鏡頭焦段、移動方式)、整體調性與導演註記等。
- 成效比較(同一原始輸入):
- 不經過優化的原始提示輸出:「Sora 2 is now available on Kai AI making it easier than ever to create stunning videos. You can experiment...」——基本可用,但較平淡。
- 經過代理優化後輸出:加入「lively cinematic classroom shot」「wide shot 24mm tripod dolly」「medium two‑shot 35mm gentle handheld」「reaction close‑ups 50mm」「lip sync」「directorial notes」等多段鏡頭說明,結果影片更有電影感、剪接更生動。Nate 評語:「第二支感覺更具戲劇性與鏡頭切換。」
- 建議:針對用途(UGC 廣告、VFX、故事板)去微調 agent 的規則庫,並配合產品資料表(Google Sheet)自動產出一系列影片腳本與提示。
8. 資料清理(避免 JSON 被破壞)與常見錯誤處理
- 問題來源:AI agent 輸出常包含換行符(newlines)或雙引號,這會破壞 JSON 字串格式,導致請求失敗。
- 解法:在 n8n 的表達式或變數處理步驟使用 replace 函數:
- 移除換行(\n)與回車,並移除雙引號("),確保送出的 prompt 為單行、無破壞字元的字串。Nate 示範:先把 agent 輸出 show 出來,再對其做 replace,右側可看到清潔後的結果。
- 常見錯誤碼與成因:
- 500 Internal Server Error:通常是 Key.ai / Sora 伺服器端錯誤(過載、外部雲端中斷)或特定內容被內部拒絕。
- 內容被拒(限制):系統可能因為政策或名人肖像保護而拒絕某些請求(尤其是 cameos 或 realistic persons)。
- 錯誤處理建議:在工作流程中加入 Switch 或 If 節點:檢查 state 為 success、generating 或 failed,若 failed 則觸發通知(Email / Slack /重試機制 / 記錄日誌)。
9. 實務建議與量產化考量(商業面)
- 成本估算示例:以 10 秒影片為單位,在 Key.ai 為 $0.15;若每天產出 100 支 10 秒 UGC 廣告,單日成本約 $15;相同產量在其他平台可能為 $100。
- 產能與品質:結合提示工程 agent,可把原始概念放大成具體攝影描述,進一步提升影片品質並降低人工成本(不需外拍、演員、場景租借等)。Nate 指出:「如果你懂得提示,能為企業省下大量時間與成本,還可以賺很多錢。」(原話大意)
- 風險管理:考慮 API 呼叫速率限制、伺服器穩定性、浮水印與肖像授權問題,以及生成內容的合規審查(避免違規內容被拒)。
結論與延伸思考
- 重點總結:
- 成本:Key.ai 呼叫 Sora 2 價格約為 1.5¢/秒,比 OpenAI / FAL 的 10¢/秒 低約 6 倍(示例:10 秒 $0.15 vs $1)。
- 工作流程:用 n8n 結合 HTTP Request 節點採「發請求 → 取回 task_id → Polling 查狀態」的常見模式。
- 產能提升:透過 AI 代理(提示工程)可從「單句想法」自動產出專業級提示,實務上可顯著提升輸出品質與產量(Nate 宣稱「10 倍產出」為目標定位)。
- 風險與限制:Storyboard 任務耗時長且更容易遇到 500 錯誤;cameos 與人像處理有使用限制;需做好錯誤與內容審查機制。
- 思考題(給決策者):你是否已具備穩定的素材(產品照、品牌聲音、ICP 定義)來建立批量生成流程?若是,這套技術能否把拍片成本與時間縮到你可接受的範圍,並轉化為實際營收?
- 參考與進一步資源:Nate 提供了完整的 n8n JSON 模板與社群教學,加入其 free school 可下載範例並取得設定指南(影片說明欄中有連結)。
參考資料:YouTube — Nate Herk | AI Automation:Create ANYTHING with Sora 2 + n8n AI Agents (Full Beginner's Guide)
https://www.youtube.com/watch?v=Vm8QOo9MiC4