# 我用 Gemini API 破解了 YouTube 影片秒找關鍵畫面的問題——花了一年才想通的事

在我開始用 Gemini 的 API 之前,我其實在這個問題上卡了很久。你知道那種感覺嗎?就是你明確知道自己想要什麼,但市面上的工具就是不給你。

▋ 那些沒辦法的時代

最一開始,我想做的事很簡單——從 YouTube 影片裡自動找出特定的畫面。聽起來沒什麼,但當你開始想要把它實際執行出來的時候,馬上就撞牆了。OpenAI 的模型?它們根本不讓你直接處理影片內容。Anthropic 的 Claude?同樣的問題,他們也會限制你對影片的存取權限。就像被隔著一層玻璃,明明看得到東西卻摸不著。

我試過各種繞路。有段時間我想用影片截圖搭配 OCR 去識別,但那效率慘到不行。也想過自己寫爬蟲去抓影片的文字敘述檔,但 YouTube 上大多影片根本沒有,或者敘述檔品質爛到不能用。那段時間我真的很挫折,感覺就像在黑暗裡摸索,不知道哪條路才是出口。

大概花了快要一年的時間,我一直在想同一個問題,嘗試不同的方法,然後一次又一次地失敗。有時候是技術層面的問題,有時候是成本太高根本行不通。那種反覆的無力感,現在回想起來還是有點難受。

▋ Gemini API 改變了什麼

直到某個時刻,我發現了 Gemini 的 API 做的事情完全不同。它沒有在玩那套「我要保護版權所以限制你」的遊戲,反而是直接給你權限去處理影片——把影片的每一個影格都抓下來,然後讓你用模型去分析。

這聽起來簡單,但裡面的價值其實很大。我可以上傳一部 YouTube 影片,然後用 Gemini 2.5 Flash 模型去問它:「幫我找出出現特定畫面的時間點」。模型會一幀一幀地掃過去,然後告訴我確切的秒數。就這麼簡單。

更狂的是,成本低到不行。一部 20 分鐘的影片,用 Flash 模型跑下去,大概只要台幣 10 塊左右。如果你用 Pro 模型會貴一點,但 Flash 已經夠用了。而且,我試過的其他廠商模型——無論是 OpenAI 還是 Anthropic 的 Sonnet——根本做不到這一點。他們就是卡在那個「不讓你碰影片」的決策上。

▋ 但這只是開始

有了能找到關鍵畫面的能力,我才開始想到下一個問題:如果我要幫影片製作介紹或摘要,那我需要做的不只是找到畫面,還要把它們對應到台詞。這又是另一個難度。

你不能只是說「這段影片在 3 分 20 秒有一個重要的東西」,你還得知道那時候在講什麼。所以你需要同時處理視覺資訊和聲音資訊,然後把兩個東西精確地對上。這個難度跳升了好幾個檔次。

也正是因為這個,我才花了那麼久的時間在思考。不只是技術上的思考,更多是在想「怎麼設計這個工作流程才能夠實際可行」。中間跌過很多坑,做過不少看起來聰明其實很蠢的嘗試。有時候是方向錯了,有時候是方向對了但執行面沒想清楚。慢慢地,透過這些失敗,我才漸漸摸出一套比較有機會的解答。

▋ 現在的狀態

現在我正在把這些想法逐漸落實成實際的東西。還不到可以大張旗鼓地宣傳的程度,但我有信心這是一個真正有價值的方向。

最期待的是,未來大家會陸續看到這樣的應用成果。不管是自動生成影片介紹、快速找到特定內容,或是其他我還沒想到的用法,我覺得 Gemini API 這個能力確實打開了一扇新的門。而且說實話,當初那一年的挫折和摸索,現在看來反而像是必要的過程——不經過那些失敗,我也不會對這個問題想得那麼深。

所以如果你最近也在琢磨什麼 AI 工具能幫你什麼忙,我建議你去看看 Gemini API。至少在影片分析這個領域,它確實做到了別人還沒做到的事。

Read more

流量三溫層:為什麼你辛苦引進的人潮,最後都留不住?

流量本身不是目的,讓流量「回來」才是 這幾個月在做產品推廣,我終於搞懂一件事:流量本身不是目的,讓流量「回來」才是。 很多人以為只要有人潮湧進來就成功了,但事實上,那些衝著某篇爆文或某個推薦進來的訪客,絕大多數都是一次性的。 他們來了、看了、走了,然後再也找不到回來的路。 流量的三個溫度 在開始談怎麼留住人之前,先理解一下流量的本質。 我把流量分成三種溫度。 第一種是「冷流量」,這群人完全不認識你,撬動他們通常要靠廣告,而且花費不小。 第二種是「溫流量」,他們可能看過你的內容、聽過你的名字,有點興趣願意點進來看看。 第三種是「熱流量」,他們已經對你有信任、有意圖,這群人最值錢。 社群爆發帶來的是「溫流量」 如果你在社群上某篇內容突然爆了,帶進來的通常是溫流量。 這群人品質其實不錯,他們是被內容吸引、主動點進來的。 但問題是,他們只是「路過」,還沒有建立任何連結。 如果你是靠廣告獲取流量,狀況又不一樣了。

By andy