GPT-5震撼登場!OpenAI宣稱達到PhD博士級智能,但為何業界反應兩極?

2025年8月7日,OpenAI終於揭開了GPT-5的神秘面紗。在長達一個半小時的直播發布會中,該公司宣稱這個最新模型已經達到了「PhD博士級」的智能水平。然而,這個被寄予厚望的新模型,卻在科技界引發了意想不到的兩極反應。從基準測試的驚人數據到實際應用的爭議,GPT-5的發布正在重新定義我們對AI能力的認知。

- #從大學生到博士的智能飛躍

OpenAI在發布會上將GPT-5的智能提升描述得極為生動。他們表示:「GPT-3就像與高中生聊天,GPT-4像是與大學生對話,而GPT-5則如同與一位擁有PhD學位的專家交流。」

更令人震驚的是,這不只是單一領域的博士級智能。GPT-5被描述為能在幾乎所有專業領域提供博士級別的專業知識和分析能力。無論是量子物理、分子生物學還是古典文學,用戶都能獲得頂級專家水準的回應。

在基準測試方面,GPT-5的表現幾乎可以用「完美」來形容。在競賽數學基準測試中,當它能夠使用Python時,得分率達到了驚人的100%。即使不使用工具,純粹依靠模型本身的推理能力,也能達到96.7%的準確率。

- #碾壓性的測試數據背後

GPT-5在各項專業測試中的表現令人瞠目結舌。在哈佛-MIT數學錦標賽中,使用Python輔助時同樣獲得滿分。在Google的PhD級科學問題考試中,得分率達到89%。即使是被稱為「人類最後考試」的高難度測試,GPT-5也名列前茅。

在編程能力方面,GPT-5以74.9%的成績微幅領先Anthropic剛發布的Claude Opus 4.1(74.5%),重新奪回了編程界的王座。在大學級視覺問題解決測試中,GPT-5獲得84.2%的分數,而Claude Opus只有77.1%。

然而,OpenAI也坦承:「基準測試的數字雖然令人興奮,但我們正在接近飽和點。當你在某個基準測試中從98%提升到99%時,你需要其他東西來真正展現模型的優秀程度。」

- #革命性的統一模型架構

GPT-5帶來的一個重大改變是結束了用戶需要選擇不同模型的困擾。過去用戶需要在GPT-4、O3、O3 Pro等不同模型間做選擇,現在一切都統一為GPT-5。

當用戶輸入提示詞時,GPT-5會自動決定需要多長的思考時間,以及採用什麼方式來獲得最佳回應。這種智能化的自動調整,大大簡化了用戶體驗。

模型在處理細節方面也有了顯著提升。如果你給它一個包含大量細微要求的長提示詞,GPT-5能夠準確捕捉並執行這些細節要求。更重要的是,當它發現走錯方向時,能夠有效地回溯並修正路徑。

- #前所未有的速度與可用性

幾乎所有早期測試者都對GPT-5的速度讚不絕口。這種速度提升不僅體現在生成回應的時間上,更重要的是在保持高質量輸出的同時實現了極速響應。

在可用性方面,OpenAI採取了前所未有的開放策略。GPT-5對所有用戶開放,無論是免費用戶還是付費用戶都能使用。Plus訂閱用戶獲得更多使用額度,而Pro用戶則能訪問GPT-5 Pro版本,該版本具有延長推理能力,能提供更全面準確的答案。

Pro用戶基本上享有無限使用權限,這在OpenAI的歷史上是罕見的慷慨舉措。

- #AI助理功能的重大升級

GPT-5正在從一個聊天工具轉變為真正的個人助理。從下週開始,它將能夠訪問用戶的Gmail和Google Calendar,實現更深度的個人化服務。

在演示中,GPT-5展示了如何查看用戶的日程安排,提供半小時為單位的日程概覽,檢查需要處理的郵件,甚至能根據行程安排幫助用戶準備行李。這種整合讓AI真正成為了生活和工作中的得力助手。

語音功能也迎來重大更新,現在連免費用戶都能無限使用語音聊天。付費用戶則享有近乎無限的使用權限。語音功能的可定制性大幅提升,用戶可以要求AI只用一個詞回答問題,它就會嚴格遵守這個指令。

- #令人驚嘆的編程能力展示

發布會上展示的編程能力讓許多開發者為之驚嘆。其中最令人印象深刻的是一個完全3D的城堡遊戲,僅用一個提示詞就能生成。

這個遊戲具有完整的3D視角,可以360度旋轉查看城堡的每個角度。遊戲中有行走的守衛、聊天系統,玩家可以與城堡中的角色對話。更有趣的是,遊戲還包含了射擊氣球的玩法元素,玩家需要操控大砲擊落飛行的氣球。

另一個令人驚豔的演示是財務儀表板的生成。GPT-5創建了一個設計精美、配色協調的儀表板,當鼠標懸停在圖表上時,能實時顯示具體數據。所有這些複雜的功能都是通過單一提示詞實現的。

- #安全性的重大突破

在AI安全方面,GPT-5取得了顯著進展。幻覺率(錯誤生成虛假信息)從O3模型的4.5%降低到了0.7%,這是一個巨大的改進。

更令人關注的是對「欺騙行為」的控制。在編碼欺騙測試中,GPT-5的欺騙率只有16.5%,而之前的模型高達47.4%。在缺失圖像測試中,欺騙率從86.7%降至9.9%。

GPT-5還改進了拒絕回答的方式。當用戶詢問敏感話題時,它不再簡單地說「抱歉,我無法幫助」,而是會指向合法的資源和道德考量,展現出更好的意圖理解能力。

- #API生態系統的全面升級

對開發者而言,GPT-5帶來了豐富的API選項。提供三種版本:標準GPT-5、GPT-5 Mini(中等規模)和GPT-5 Nano(輕量級版本),價格與性能相匹配。

新增的「推理努力」(reasoning effort)參數讓開發者能夠控制模型的思考深度。需要快速響應時可以設置低推理努力,需要深思熟慮的答案時則可以提高該參數。

另一個創新是「詳細程度」(verbosity)參數,開發者可以控制輸出的長短,這對於不同應用場景極為實用。上下文窗口擴展到了40萬tokens,約等於30萬字的輸入輸出能力。

- #業界反應的兩極分化

儘管數據亮眼,業界對GPT-5的反應卻呈現兩極分化。許多日常關注AI發展的專業人士表示,這次更新感覺更像是漸進式改進,而非革命性飛躍。

有評論者指出:「從GPT-3.5到GPT-4的飛躍感覺是巨大的。當時他們展示了在紙上畫網站草圖,拍照後就能生成代碼的功能,這是我們從未見過的。但這次感覺更像是從GPT-4到O3模型的提升。」

批評者認為,發布會缺少了那種「哇」的時刻。沒有展示新的多模態功能,沒有整合Sora視頻生成,也沒有展示與AI代理的協同工作。這些本可以讓GPT-5真正與眾不同的功能都缺席了。

- #編程領域的新霸主

然而,在編程領域,GPT-5獲得了壓倒性的好評。Cursor的創始人在發布會上表示,這是目前市場上最好的編程模型,Cursor將默認使用GPT-5。

一位測試者使用單一提示詞「製作一個Vampire Survivors克隆遊戲,要美觀且功能完整」,GPT-5在3分鐘內生成了565行代碼。遊戲不僅可以運行,還具有漸進式難度、多種敵人類型、升級系統和多樣化武器。測試者評價這是他見過的最好的單提示詞遊戲生成結果。

這種強大的編程能力正在改變整個行業的走向。正如評論者所說:「大型語言模型公司們都意識到,為個人編寫定制化應用是LLM的殺手級應用。如果它能寫代碼,它就能做任何事。」

參考資料來源:https://www.youtube.com/watch?v=K_mlC_aeDSU

Read more

如何在45分鐘內做出能抓住注意力的爆款短片?Roberto Nixon 的完整流程與工作室成本揭密

如何在45分鐘內做出能抓住注意力的爆款短片?Roberto Nixon 的完整流程與工作室成本揭密

在這集令人起雞皮疙瘩的節目中,短片創作者 Roberto Nixon 首度完整揭露他的製作流程:從靈感、逐字稿、錄製到後製暨發布的每一道細節。他是網路上少數能穩定拿到「數百萬追蹤、數以億計觀看」的短形式創作者之一,此次示範不只分享工具與技術,更揭示速度與節奏如何成為他製作「高點閱、易擴散」內容的核心競爭力。本文依循訪談內容重組,並補充必要背景說明,呈現可實作、可複製的完整操作指南與關鍵數據。 Roberto 明確指出:「短形式影片是互聯網的 bread and butter,是所有注意力的 top of funnel。」他認為短片的價值不只是資訊傳遞,而是「以極高速度捕捉注意力,並把觀眾導向更深的學習或行動」。他在訪談中強調三個製作目標的順序與重要性: - 「Capture attention」:前2秒的視覺與口語鉤子至關重要。 - 「Maintain attention」:以衝突—解決的段落設計持續牽引觀看。 - 「Reward attention」:提供實用、獨到的洞見以促成互動(

By andy

從焦慮到信任:一個月的授權噩夢,到一晚上用 Claude Code 搞定 API 串接的領悟

▋ 當初那個月,我幾乎快瘋了 說起來有點丟臉,但我得老實講——最開始串接 Facebook 和 Instagram 的發文功能時,我花了整整一個月。一個月啊,你聽起來可能覺得正常,但那一個月裡我經歷的心理狀態真的不太妙。 OAuth 授權流程、API 金鑰管理、權限設置、各種稀奇古怪的 Error Code……我每天都在官方文件和 Stack Overflow 之間切換,反覆測試、碰壁、修改參數、再碰壁。有幾次我真的坐在電腦前,盯著同一個 401 錯誤整整兩小時,想不出問題在哪裡。那種感覺很難形容,就是心裡知道「應該就快了」,但就是過不去那道檻。 問題是,不管我做再多功課,這個授權系統就像一個只會說 No 的門神,你得反覆調整每個參數,直到它願意放你進去。期間我甚至懷疑過自己是不是不適合做技術工作。 ▋ Performance API 串接時的震撼 然後這禮拜,

By andy
如何用 Sora 2 + n8n AI 代理,把影片成本降6倍、產量放大10倍?完整新手實作解析

如何用 Sora 2 + n8n AI 代理,把影片成本降6倍、產量放大10倍?完整新手實作解析

導言:Sora 2正席捲網路,能把文字、圖片、名人臉孔直接變成可上線的短影片。Nate Herk 在教學影片中示範如何把 Sora 2 與自動化工具 n8n(他稱為 NADN)串接,聲稱可以「取得10倍產出、更高品質、無浮水印,且透過 Key.ai 使用 Sora 2 比 OpenAI 直接呼叫便宜6倍」。本文將從連線設定、範例工作流程、提示工程到錯誤處理逐步解析,並以數據與引言突顯關鍵步驟,幫助你把這套系統從 Proof‑of‑Concept 做到可量產化。 * 關鍵數據:Key.ai 對 Sora 2 的收費為 1.5 美分/秒($0.

By andy

# 不會寫程式反而是優勢?為什麼Vibe Coding會是你最該投資的技能

我想跟你聊一件我最近才真正體悟的事:如果你想在未來持續提升生產力,你根本逃不掉要跟AI合作這個課題。但關鍵不是去學寫程式,反而是要學會跟AI「談戀愛」。 ▋ 你以為不會寫程式是限制,其實反而是超能力 老實說,剛開始聽到Vibe Coding這個概念時,我也有點懷疑。不會寫程式的人用AI協作?聽起來好像哪裡怪怪的。但仔細想想才發現,這恰好是我之前完全想反了的地方。 很多人問我:「欸,如果我不會寫程式,怎麼能跟AI Code一起工作?」我現在的答案是:正因為你不會寫程式,你才更有資格來做這件事。為什麼?因為你能深刻理解那些使用者痛點。你知道什麼叫「這件事很麻煩」,你知道什麼叫「其實我們需要的是這個」。而一個只會寫程式的人,有時候反而被自己的技術思維限制了,看不到使用者真正想要什麼。 你不會寫程式,所以你能在跟AI的來回對話中,一次次指出「不對,我要的是這樣」、「這邊可以再調整」。你用自己的直覺和需求不斷修正,而AI則用它的執行力去實現。這兩種優勢的結合,才是真正的超能力。 ▋ AI的能力再強,也需要一個懂它的人 這裡有個前提要弄清楚:不是隨便用任何AI都行。你得選一

By andy