# 我用 Gemini API 破解了 YouTube 影片秒找關鍵畫面的問題——花了一年才想通的事

在我開始用 Gemini 的 API 之前,我其實在這個問題上卡了很久。你知道那種感覺嗎?就是你明確知道自己想要什麼,但市面上的工具就是不給你。

▋ 那些沒辦法的時代

最一開始,我想做的事很簡單——從 YouTube 影片裡自動找出特定的畫面。聽起來沒什麼,但當你開始想要把它實際執行出來的時候,馬上就撞牆了。OpenAI 的模型?它們根本不讓你直接處理影片內容。Anthropic 的 Claude?同樣的問題,他們也會限制你對影片的存取權限。就像被隔著一層玻璃,明明看得到東西卻摸不著。

我試過各種繞路。有段時間我想用影片截圖搭配 OCR 去識別,但那效率慘到不行。也想過自己寫爬蟲去抓影片的文字敘述檔,但 YouTube 上大多影片根本沒有,或者敘述檔品質爛到不能用。那段時間我真的很挫折,感覺就像在黑暗裡摸索,不知道哪條路才是出口。

大概花了快要一年的時間,我一直在想同一個問題,嘗試不同的方法,然後一次又一次地失敗。有時候是技術層面的問題,有時候是成本太高根本行不通。那種反覆的無力感,現在回想起來還是有點難受。

▋ Gemini API 改變了什麼

直到某個時刻,我發現了 Gemini 的 API 做的事情完全不同。它沒有在玩那套「我要保護版權所以限制你」的遊戲,反而是直接給你權限去處理影片——把影片的每一個影格都抓下來,然後讓你用模型去分析。

這聽起來簡單,但裡面的價值其實很大。我可以上傳一部 YouTube 影片,然後用 Gemini 2.5 Flash 模型去問它:「幫我找出出現特定畫面的時間點」。模型會一幀一幀地掃過去,然後告訴我確切的秒數。就這麼簡單。

更狂的是,成本低到不行。一部 20 分鐘的影片,用 Flash 模型跑下去,大概只要台幣 10 塊左右。如果你用 Pro 模型會貴一點,但 Flash 已經夠用了。而且,我試過的其他廠商模型——無論是 OpenAI 還是 Anthropic 的 Sonnet——根本做不到這一點。他們就是卡在那個「不讓你碰影片」的決策上。

▋ 但這只是開始

有了能找到關鍵畫面的能力,我才開始想到下一個問題:如果我要幫影片製作介紹或摘要,那我需要做的不只是找到畫面,還要把它們對應到台詞。這又是另一個難度。

你不能只是說「這段影片在 3 分 20 秒有一個重要的東西」,你還得知道那時候在講什麼。所以你需要同時處理視覺資訊和聲音資訊,然後把兩個東西精確地對上。這個難度跳升了好幾個檔次。

也正是因為這個,我才花了那麼久的時間在思考。不只是技術上的思考,更多是在想「怎麼設計這個工作流程才能夠實際可行」。中間跌過很多坑,做過不少看起來聰明其實很蠢的嘗試。有時候是方向錯了,有時候是方向對了但執行面沒想清楚。慢慢地,透過這些失敗,我才漸漸摸出一套比較有機會的解答。

▋ 現在的狀態

現在我正在把這些想法逐漸落實成實際的東西。還不到可以大張旗鼓地宣傳的程度,但我有信心這是一個真正有價值的方向。

最期待的是,未來大家會陸續看到這樣的應用成果。不管是自動生成影片介紹、快速找到特定內容,或是其他我還沒想到的用法,我覺得 Gemini API 這個能力確實打開了一扇新的門。而且說實話,當初那一年的挫折和摸索,現在看來反而像是必要的過程——不經過那些失敗,我也不會對這個問題想得那麼深。

所以如果你最近也在琢磨什麼 AI 工具能幫你什麼忙,我建議你去看看 Gemini API。至少在影片分析這個領域,它確實做到了別人還沒做到的事。

Read more

如何在 10 個指標看出 OpenAI Agent Kit 能否「扳倒」n8n?一次看懂 2 大代理人平台的勝負關鍵

如何在 10 個指標看出 OpenAI Agent Kit 能否「扳倒」n8n?一次看懂 2 大代理人平台的勝負關鍵

在最新的比較實測中,AI 自動化創作者 Nate Herk(Nate Herk | AI Automation)直言:「In short, my answer is no.」──他認為 OpenAI 在 2025-10-06 推出的 Agent Kit 並不會直接取代已存在多年的開源自動化平台 n8n(初版 2019-10-08)。本文將重組 Nate 的實測內容,逐項分析兩者在使用者門檻、觸發器、工具整合、模型支援、前端嵌入(UI)與部署控制等關鍵面向,並呈現評分數據與原文引言,供想選用或評估平台的讀者做出判斷。 * Agent Kit(OpenAI Agent Builder)發布日:2025-10-06。設計定位:以「快速、視覺化、

By andy

# N8N 還是 Claude Code?選錯一個,你會在維護時哭出來——實戰經驗談

前陣子有位網友問我一個問題,我當時停頓了一下,因為我意識到這個問題問得很好。他問:「到底什麼時候該用 N8N,什麼時候該用 Claude Code?」 我一開始想給出一個簡單的答案,但後來發現——其實沒有簡單答案。真正的分水嶺,不在工具本身,而在於你後來會怎麼活著跟這個東西相處。 ▋ 關鍵不是技術,是你的記憶 想像一下這個場景:你今天花了整個下午設計一個自動化流程。邏輯很複雜,涉及多個 API 串接、條件判斷、資料轉換。當時你腦子很清楚,一切都有道理。然後一周後,你的主管說:「欸,那個流程能不能改一下?」 你打開檔案。看著自己寫的程式碼或配置。三秒鐘後,你的腦子一片空白。 「我當時為什麼要這樣設定?」 這時候,如果你用的是 N8N,你會慶幸自己的決定。因為整個流程就像樂高積木一樣擺在你面前,一眼就能看懂每一步在幹什麼。「啊,這裡是連接 Google Sheets,那裡是做資料過濾,這邊是呼叫 AI API。

By andy

我正在做一個瘋狂的實驗:讓AI掌控我80%的線上形象,看看會發生什麼

老實跟你說,你現在看到的我—聲音、影像、文字—大部分都不是我本人。 這聽起來很詭異,我知道。但這正是重點。 我不是隨便玩玩,也不是為了作秀。我是在親身經歷一個別人都在談論、但很少有人真正去試驗的東西:如果AI能掌控你超過80%的線上生產力,會發生什麼事? ▋ 大多數人的想法都停在20% 現在很多人用AI的方式是這樣的:拿它來寫個開場、潤色個段落、幫忙生成幾張圖。AI扮演的是助手角色,人類才是主導者,還是靠人力來賺錢、維持信譽。這樣當然安全,也很聰明。 但我想知道的是另一個問題。 如果我不是偷偷用AI,而是讓它在前台直接面對你,掌控我80%以上的聲音、文字、影像表現,會怎樣?會崩潰嗎?會被識破嗎?人們會察覺不出來嗎?還是說,這樣的模式本身就會帶來一些我根本預料不到的怪事? 我沒看過有人真的這樣做過,所以我決定自己試試。 ▋ 為什麼我要這樣折騰自己 你可能會問:「為什麼?這不是自找麻煩嗎?」 確實是。但這就像任何真實的實驗一樣,你不下水,你根本不知道水溫。

By andy

別再追風口了——我如何從「快速出產品」的狂歡中走出來,轉向解決自己真正的問題

▋ 那段沉迷「快速出貨」的日子 說實話,當 Vibe Coding 火起來的時候,我也被那種感覺迷住了。能用 AI 這麼快速地把腦子裡的想法變成產品,那種成就感真的滿到爆炸。我記得有一陣子,我幾乎每週都在做新東西——今天做個 X 功能,明天改個 Y 工具,後天又琢磨起 Z 的變體。身邊的人都在說「哇,你動作好快」,我自己也覺得特別充實,彷彿在衝浪一樣踩著科技浪潮的尖端。 但你知道嗎?那種快不是充實,只是上癮。 我現在還記得最清楚的一個例子——我看到有人用生成式 AI 做出超厲害的產品推介功能,能把一堆圖片一鍵轉成專業級的電商影片。那時候我眼睛都亮了,馬上想「這個我也能做,而且我能做得更好」。花了一個禮拜把 MVP 整出來,還挺自豪的。然後呢?Google 用 Nano Banana

By andy