# 我用 Gemini API 破解了 YouTube 影片秒找關鍵畫面的問題——花了一年才想通的事

在我開始用 Gemini 的 API 之前,我其實在這個問題上卡了很久。你知道那種感覺嗎?就是你明確知道自己想要什麼,但市面上的工具就是不給你。

▋ 那些沒辦法的時代

最一開始,我想做的事很簡單——從 YouTube 影片裡自動找出特定的畫面。聽起來沒什麼,但當你開始想要把它實際執行出來的時候,馬上就撞牆了。OpenAI 的模型?它們根本不讓你直接處理影片內容。Anthropic 的 Claude?同樣的問題,他們也會限制你對影片的存取權限。就像被隔著一層玻璃,明明看得到東西卻摸不著。

我試過各種繞路。有段時間我想用影片截圖搭配 OCR 去識別,但那效率慘到不行。也想過自己寫爬蟲去抓影片的文字敘述檔,但 YouTube 上大多影片根本沒有,或者敘述檔品質爛到不能用。那段時間我真的很挫折,感覺就像在黑暗裡摸索,不知道哪條路才是出口。

大概花了快要一年的時間,我一直在想同一個問題,嘗試不同的方法,然後一次又一次地失敗。有時候是技術層面的問題,有時候是成本太高根本行不通。那種反覆的無力感,現在回想起來還是有點難受。

▋ Gemini API 改變了什麼

直到某個時刻,我發現了 Gemini 的 API 做的事情完全不同。它沒有在玩那套「我要保護版權所以限制你」的遊戲,反而是直接給你權限去處理影片——把影片的每一個影格都抓下來,然後讓你用模型去分析。

這聽起來簡單,但裡面的價值其實很大。我可以上傳一部 YouTube 影片,然後用 Gemini 2.5 Flash 模型去問它:「幫我找出出現特定畫面的時間點」。模型會一幀一幀地掃過去,然後告訴我確切的秒數。就這麼簡單。

更狂的是,成本低到不行。一部 20 分鐘的影片,用 Flash 模型跑下去,大概只要台幣 10 塊左右。如果你用 Pro 模型會貴一點,但 Flash 已經夠用了。而且,我試過的其他廠商模型——無論是 OpenAI 還是 Anthropic 的 Sonnet——根本做不到這一點。他們就是卡在那個「不讓你碰影片」的決策上。

▋ 但這只是開始

有了能找到關鍵畫面的能力,我才開始想到下一個問題:如果我要幫影片製作介紹或摘要,那我需要做的不只是找到畫面,還要把它們對應到台詞。這又是另一個難度。

你不能只是說「這段影片在 3 分 20 秒有一個重要的東西」,你還得知道那時候在講什麼。所以你需要同時處理視覺資訊和聲音資訊,然後把兩個東西精確地對上。這個難度跳升了好幾個檔次。

也正是因為這個,我才花了那麼久的時間在思考。不只是技術上的思考,更多是在想「怎麼設計這個工作流程才能夠實際可行」。中間跌過很多坑,做過不少看起來聰明其實很蠢的嘗試。有時候是方向錯了,有時候是方向對了但執行面沒想清楚。慢慢地,透過這些失敗,我才漸漸摸出一套比較有機會的解答。

▋ 現在的狀態

現在我正在把這些想法逐漸落實成實際的東西。還不到可以大張旗鼓地宣傳的程度,但我有信心這是一個真正有價值的方向。

最期待的是,未來大家會陸續看到這樣的應用成果。不管是自動生成影片介紹、快速找到特定內容,或是其他我還沒想到的用法,我覺得 Gemini API 這個能力確實打開了一扇新的門。而且說實話,當初那一年的挫折和摸索,現在看來反而像是必要的過程——不經過那些失敗,我也不會對這個問題想得那麼深。

所以如果你最近也在琢磨什麼 AI 工具能幫你什麼忙,我建議你去看看 Gemini API。至少在影片分析這個領域,它確實做到了別人還沒做到的事。

Read more

長春藤名校只收百萬富翁?AI 將淘汰 80% 的不適任教師?三位專家的震撼預言

長春藤名校只收百萬富翁?AI 將淘汰 80% 的不適任教師?三位專家的震撼預言

在一場關於 AI 與教育未來的深度對談中,Minerva 大學創辦人 Ben Nelson、史丹佛大學未來實驗室的 Isabelle Hau,以及資深教育家 Esther Wojcicki 揭示了教育體系面臨的巨大挑戰與變革。他們不僅探討了 AI 作為個人化導師的潛力,更毫不留情地揭露了現行教育系統中的「魔鬼交易」,並預言在 AI 時代,傳統學位價值將崩潰,甚至高達 80% 的教師可能面臨被淘汰的殘酷現實。 Esther Wojcicki 興奮地指出 AI 的最大潛力在於成為「每個學生的專屬家教」。她說:「學生可以反覆提問,不必擔心自己看起來很笨,並且能立刻得到答案。我認為所有老師都應該在課堂上使用 AI 作為輔助導師。」 然而,Ben Nelson 提出了截然不同的警告,他稱之為教育界的「魔鬼交易」。他一針見血地指出:「老師或教授與學生之間存在一種心照不宣的默契,那就是雙方做得越少,彼此就越開心。而

By andy
Spotify收購的男人揭露:AI正讓那些「不可能」的消費型創業起死回生

Spotify收購的男人揭露:AI正讓那些「不可能」的消費型創業起死回生

前Lightspeed Ventures合夥人、Podcast平台Anchor創辦人Mike McNano,在Y Combinator的最新訪談中,深入剖析了AI如何徹底顛覆消費性新創的遊戲規則。McNano不僅是將Anchor成功出售給Spotify的創業家,更是投資了Neurolink、xAI、Suno等傳奇公司的頂尖投資人。他指出,過去十年,許多消費性產品的創業點子因技術限制、發行困難而被判了死刑,但AI的出現,正讓這些「不可能」的機會起死回生。 McNano以他投資的爆紅AI音樂生成應用Suno為例,闡述了AI如何打破創意產業的舊有壁壘。他回憶道:「在AI出現之前,沒有任何技術能真正降低音樂創作的門檻。相機讓攝影普及,麥克風讓Podcasting普及,但音樂創作始終是專業人士的領域。」 Suno的核心理念,就如同當年的Instagram之於攝影。Instagram不僅讓人們能輕鬆拍出好看的照片,更提供了一個發行渠道。Suno則利用AI達成了同樣的目標:「現在有了AI,任何人都能創作音樂。」 McNano觀察到一個前所未見的用戶行為:「人們正在為自己創作音樂,然後自己

By andy
Google AI產品主管親身示範:如何在20分鐘內,用AI完成市場研究、規格書、原型到行銷影片!

Google AI產品主管親身示範:如何在20分鐘內,用AI完成市場研究、規格書、原型到行銷影片!

Google AI 產品主管 Marilyn Nika,一位在AI領域深耕多年的專家,親身揭示了一套顛覆傳統的產品管理工作流程。當眾多AI工具如雨後春筍般湧現時,她思考的不是AI是否會取代PM,而是「如何成為一名『AI賦能的產品經理』?」她利用一個「智慧冰箱」的 hypothetical 案例,展示如何在短短20分鐘內,完成過去需要數週才能完成的市場研究、產品規格書(PRD)、互動原型,甚至是行銷影片的完整流程,徹底改變了產品開發的遊戲規則。 傳統上,產品經理進行市場研究,需要依賴公司的用戶研究部門(UXR)或聘請外部機構,過程耗時且成本高昂。然而,Nika展示了如何利用 AI 工具 Perplexity 在幾分鐘內洞察全球用戶的想法。 她分享了一個獨特的技巧:不僅僅是搜尋網路,而是專門篩選「Reddit」上的討論與意見。她下的指令是:「家庭用戶會對智慧冰箱感興趣嗎?」AI迅速整理出正反兩方的觀點、常見疑慮和採用的障礙。 但真正的精髓在於下一步。Nika 指示 AI:「創造兩個代理人,

By andy
馬斯克驚天預言:3年後通縮,20年內工作消失,金錢將被「能源」取代!

馬斯克驚天預言:3年後通縮,20年內工作消失,金錢將被「能源」取代!

伊隆·馬斯克 (Elon Musk) 在一場深度訪談中,再次拋出了足以顛覆我們對未來所有想像的震撼觀點。這場對話不僅僅是關於科技,更是對人類文明未來走向的全面預測。從人工智慧(AI)將如何終結傳統工作,到金錢體系的徹底瓦解,再到我們可能身處的「模擬現實」,馬斯克描繪了一幅既令人興奮又充滿挑戰的未來藍圖。 當被問及社會從週休二日走向三日的趨勢時,馬斯克的回答遠超於此。他斷言,這場變革將是根本性的:「我的預測是,在不到20年的時間裡,工作將成為一種選擇(optional)。」他甚至認為,這個時間點可能縮短至10到15年。 這背後的核心驅動力是AI與機器人技術的指數級發展。馬斯克形容這是一場「超音速海嘯」(supersonic tsunami),其帶來的生產力提升將達到前所未有的高度。未來社會將不再是我們熟悉的「全民基本收入」(UBI),而是「全民高收入」(UHI, Universal High Income)。 他解釋道:「未來,工作將會像一種嗜好。就像今天你可以選擇在自家花園種菜,也可以去商店購買一樣。這將是一種選擇。」在這個世界裡,AI和機器人將滿足人類所有的商品和服務需求

By andy