GPT-5震撼登場!OpenAI宣稱達到PhD博士級智能,但為何業界反應兩極?

2025年8月7日,OpenAI終於揭開了GPT-5的神秘面紗。在長達一個半小時的直播發布會中,該公司宣稱這個最新模型已經達到了「PhD博士級」的智能水平。然而,這個被寄予厚望的新模型,卻在科技界引發了意想不到的兩極反應。從基準測試的驚人數據到實際應用的爭議,GPT-5的發布正在重新定義我們對AI能力的認知。

- #從大學生到博士的智能飛躍

OpenAI在發布會上將GPT-5的智能提升描述得極為生動。他們表示:「GPT-3就像與高中生聊天,GPT-4像是與大學生對話,而GPT-5則如同與一位擁有PhD學位的專家交流。」

更令人震驚的是,這不只是單一領域的博士級智能。GPT-5被描述為能在幾乎所有專業領域提供博士級別的專業知識和分析能力。無論是量子物理、分子生物學還是古典文學,用戶都能獲得頂級專家水準的回應。

在基準測試方面,GPT-5的表現幾乎可以用「完美」來形容。在競賽數學基準測試中,當它能夠使用Python時,得分率達到了驚人的100%。即使不使用工具,純粹依靠模型本身的推理能力,也能達到96.7%的準確率。

- #碾壓性的測試數據背後

GPT-5在各項專業測試中的表現令人瞠目結舌。在哈佛-MIT數學錦標賽中,使用Python輔助時同樣獲得滿分。在Google的PhD級科學問題考試中,得分率達到89%。即使是被稱為「人類最後考試」的高難度測試,GPT-5也名列前茅。

在編程能力方面,GPT-5以74.9%的成績微幅領先Anthropic剛發布的Claude Opus 4.1(74.5%),重新奪回了編程界的王座。在大學級視覺問題解決測試中,GPT-5獲得84.2%的分數,而Claude Opus只有77.1%。

然而,OpenAI也坦承:「基準測試的數字雖然令人興奮,但我們正在接近飽和點。當你在某個基準測試中從98%提升到99%時,你需要其他東西來真正展現模型的優秀程度。」

- #革命性的統一模型架構

GPT-5帶來的一個重大改變是結束了用戶需要選擇不同模型的困擾。過去用戶需要在GPT-4、O3、O3 Pro等不同模型間做選擇,現在一切都統一為GPT-5。

當用戶輸入提示詞時,GPT-5會自動決定需要多長的思考時間,以及採用什麼方式來獲得最佳回應。這種智能化的自動調整,大大簡化了用戶體驗。

模型在處理細節方面也有了顯著提升。如果你給它一個包含大量細微要求的長提示詞,GPT-5能夠準確捕捉並執行這些細節要求。更重要的是,當它發現走錯方向時,能夠有效地回溯並修正路徑。

- #前所未有的速度與可用性

幾乎所有早期測試者都對GPT-5的速度讚不絕口。這種速度提升不僅體現在生成回應的時間上,更重要的是在保持高質量輸出的同時實現了極速響應。

在可用性方面,OpenAI採取了前所未有的開放策略。GPT-5對所有用戶開放,無論是免費用戶還是付費用戶都能使用。Plus訂閱用戶獲得更多使用額度,而Pro用戶則能訪問GPT-5 Pro版本,該版本具有延長推理能力,能提供更全面準確的答案。

Pro用戶基本上享有無限使用權限,這在OpenAI的歷史上是罕見的慷慨舉措。

- #AI助理功能的重大升級

GPT-5正在從一個聊天工具轉變為真正的個人助理。從下週開始,它將能夠訪問用戶的Gmail和Google Calendar,實現更深度的個人化服務。

在演示中,GPT-5展示了如何查看用戶的日程安排,提供半小時為單位的日程概覽,檢查需要處理的郵件,甚至能根據行程安排幫助用戶準備行李。這種整合讓AI真正成為了生活和工作中的得力助手。

語音功能也迎來重大更新,現在連免費用戶都能無限使用語音聊天。付費用戶則享有近乎無限的使用權限。語音功能的可定制性大幅提升,用戶可以要求AI只用一個詞回答問題,它就會嚴格遵守這個指令。

- #令人驚嘆的編程能力展示

發布會上展示的編程能力讓許多開發者為之驚嘆。其中最令人印象深刻的是一個完全3D的城堡遊戲,僅用一個提示詞就能生成。

這個遊戲具有完整的3D視角,可以360度旋轉查看城堡的每個角度。遊戲中有行走的守衛、聊天系統,玩家可以與城堡中的角色對話。更有趣的是,遊戲還包含了射擊氣球的玩法元素,玩家需要操控大砲擊落飛行的氣球。

另一個令人驚豔的演示是財務儀表板的生成。GPT-5創建了一個設計精美、配色協調的儀表板,當鼠標懸停在圖表上時,能實時顯示具體數據。所有這些複雜的功能都是通過單一提示詞實現的。

- #安全性的重大突破

在AI安全方面,GPT-5取得了顯著進展。幻覺率(錯誤生成虛假信息)從O3模型的4.5%降低到了0.7%,這是一個巨大的改進。

更令人關注的是對「欺騙行為」的控制。在編碼欺騙測試中,GPT-5的欺騙率只有16.5%,而之前的模型高達47.4%。在缺失圖像測試中,欺騙率從86.7%降至9.9%。

GPT-5還改進了拒絕回答的方式。當用戶詢問敏感話題時,它不再簡單地說「抱歉,我無法幫助」,而是會指向合法的資源和道德考量,展現出更好的意圖理解能力。

- #API生態系統的全面升級

對開發者而言,GPT-5帶來了豐富的API選項。提供三種版本:標準GPT-5、GPT-5 Mini(中等規模)和GPT-5 Nano(輕量級版本),價格與性能相匹配。

新增的「推理努力」(reasoning effort)參數讓開發者能夠控制模型的思考深度。需要快速響應時可以設置低推理努力,需要深思熟慮的答案時則可以提高該參數。

另一個創新是「詳細程度」(verbosity)參數,開發者可以控制輸出的長短,這對於不同應用場景極為實用。上下文窗口擴展到了40萬tokens,約等於30萬字的輸入輸出能力。

- #業界反應的兩極分化

儘管數據亮眼,業界對GPT-5的反應卻呈現兩極分化。許多日常關注AI發展的專業人士表示,這次更新感覺更像是漸進式改進,而非革命性飛躍。

有評論者指出:「從GPT-3.5到GPT-4的飛躍感覺是巨大的。當時他們展示了在紙上畫網站草圖,拍照後就能生成代碼的功能,這是我們從未見過的。但這次感覺更像是從GPT-4到O3模型的提升。」

批評者認為,發布會缺少了那種「哇」的時刻。沒有展示新的多模態功能,沒有整合Sora視頻生成,也沒有展示與AI代理的協同工作。這些本可以讓GPT-5真正與眾不同的功能都缺席了。

- #編程領域的新霸主

然而,在編程領域,GPT-5獲得了壓倒性的好評。Cursor的創始人在發布會上表示,這是目前市場上最好的編程模型,Cursor將默認使用GPT-5。

一位測試者使用單一提示詞「製作一個Vampire Survivors克隆遊戲,要美觀且功能完整」,GPT-5在3分鐘內生成了565行代碼。遊戲不僅可以運行,還具有漸進式難度、多種敵人類型、升級系統和多樣化武器。測試者評價這是他見過的最好的單提示詞遊戲生成結果。

這種強大的編程能力正在改變整個行業的走向。正如評論者所說:「大型語言模型公司們都意識到,為個人編寫定制化應用是LLM的殺手級應用。如果它能寫代碼,它就能做任何事。」

參考資料來源:https://www.youtube.com/watch?v=K_mlC_aeDSU

Read more

Claude推出「Skills」功能,AI工作流的下一個革命!別再重複下指令了

Claude推出「Skills」功能,AI工作流的下一個革命!別再重複下指令了

Anthropic 近期為其 AI 模型 Claude 推出了名為「Skills」的革命性功能,這不僅僅是一次小更新,而是從根本上改變我們設計 AI 工作流程與智能代理(AI agents)的遊戲規則。許多人對 Skills、MCP(Meta-level Control Protocol,元級控制協議)和 Projects 之間的關係感到困惑,甚至誤以為 Skills 只是為了修復 MCP 的問題。事實上,這是一個巨大的誤解。本文將深度解析 Claude Skills 的真正潛力,並透過實戰教學,展示如何立即應用這項功能,打造專屬於你的高效 AI 助理。 簡單來說,你可以將 Claude Skills 理解為「可重複使用的指令手冊」。它教導 Claude 如何按照你的特定要求、

By andy
Claude Skills 實戰教學:如何打造永不犯錯的「數位員工」,徹底終結 AI 的胡言亂語!

Claude Skills 實戰教學:如何打造永不犯錯的「數位員工」,徹底終結 AI 的胡言亂語!

AI 總是不聽話、給出的答案亂七八糟?你可能用錯方法了!在這場深度訪談中,AI 專家 Amir 揭示了 Anthropic 最新推出的殺手級功能——Claude Skills,並現場展示如何將其打造成一個個「數位員工」,解決 AI 最令人頭痛的不可靠問題。本文將帶你深入了解 Skills 與傳統的專案 (Projects) 和子代理 (Sub-agents) 有何天壤之別,並透過三個實戰案例,教你如何打造出能精準執行重複性任務、永不犯錯的 AI 助手。 在深入 Skills 之前,我們必須先理解過去的作法有哪些瓶頸。 首先是 專案 (Projects),這像是為團隊打造的共享工作區,你可以設定系統指令、提供相關文件作為「記憶」,並連接外部工具。這對於協作很有幫助,但問題在於你必須不斷手動更新背景資料,而且當資料過於龐雜時,會出現「脈絡腐爛」(Context Rot) 的問題。

By andy
別再碰AI了!高手學自動化,為何堅持從最無聊的基本功開始?

別再碰AI了!高手學自動化,為何堅持從最無聊的基本功開始?

AI自動化專家 Nate Herk 在最新的分享中,拋出了一個顛覆許多人認知的觀點:如果你想精通 n8n 這類自動化工具,最錯誤的起點就是直接跳進去打造酷炫的 AI 代理人(AI Agents)。他坦言,自己初學時也犯了同樣的錯,只想著「盡快做出 AI」,卻忽略了最關鍵的核心。如果時間能倒流,他會採取截然不同的學習路徑。這篇文章將深度解析 Nate Herk 提出的反直覺學習藍圖,告訴你為何掌握「無聊」的工作流程,才是通往真正強大 AI 自動化的唯一道路。 大多數初學者都急於打造 AI 代理人,因為它們看起來很酷,是網路上的熱門話題。但 Nate Herk 警告:「這就像還不會走路就想學跑。」他強調,如果你不了解工作流程的運作原理,你永遠無法建立出穩定可靠的 AI 代理人。 他將自動化分為三個層次: 1. 工作流程 (Workflows)

By andy

好的,這是一篇根據你的口述內容和風格要求,改寫而成的繁體中文長文,適合發布在 Facebook 或 Blog。 --- 我如何用 Google NotebookLM,將1小時的混亂發言,變成1張秒懂的資訊圖表

【我如何用 Google NotebookLM,將1小時的混亂發言,變成1張秒懂的資訊圖表】 老實說,我一直在找一個能完美解決「輸入、整理、輸出」的 AI 工具。市面上的工具很多,輸入不成問題,整理摘要也做得不錯,但到了「輸出」這一步,總覺得少了點什麼。大多工具給你的,就是一堆文字、一串重點,乾巴巴的,很難讓人一眼就抓住精髓。 直到我最近用到了 Google 的 NotebookLM,才真的有種「就是這個了!」的感覺。它在輸出的環節,特別是視覺呈現上,是我目前看過最驚豔的,沒有之一。 你有沒有過這種感覺?開了一場長達一小時的會議,或是跟客戶、朋友聊了半天,腦袋裡的東西像一團打結的毛線,跳躍又發散。你想把這些內容整理給別人看,卻發現光是條列式重點,根本無法傳達當下的思緒脈絡。對方看了半天,還是抓不到你真正想講的主線是什麼。 我就是這樣。我的思緒常常很跳 Tone,

By andy