GPT-5震撼登場!OpenAI宣稱達到PhD博士級智能,但為何業界反應兩極?

2025年8月7日,OpenAI終於揭開了GPT-5的神秘面紗。在長達一個半小時的直播發布會中,該公司宣稱這個最新模型已經達到了「PhD博士級」的智能水平。然而,這個被寄予厚望的新模型,卻在科技界引發了意想不到的兩極反應。從基準測試的驚人數據到實際應用的爭議,GPT-5的發布正在重新定義我們對AI能力的認知。

- #從大學生到博士的智能飛躍

OpenAI在發布會上將GPT-5的智能提升描述得極為生動。他們表示:「GPT-3就像與高中生聊天,GPT-4像是與大學生對話,而GPT-5則如同與一位擁有PhD學位的專家交流。」

更令人震驚的是,這不只是單一領域的博士級智能。GPT-5被描述為能在幾乎所有專業領域提供博士級別的專業知識和分析能力。無論是量子物理、分子生物學還是古典文學,用戶都能獲得頂級專家水準的回應。

在基準測試方面,GPT-5的表現幾乎可以用「完美」來形容。在競賽數學基準測試中,當它能夠使用Python時,得分率達到了驚人的100%。即使不使用工具,純粹依靠模型本身的推理能力,也能達到96.7%的準確率。

- #碾壓性的測試數據背後

GPT-5在各項專業測試中的表現令人瞠目結舌。在哈佛-MIT數學錦標賽中,使用Python輔助時同樣獲得滿分。在Google的PhD級科學問題考試中,得分率達到89%。即使是被稱為「人類最後考試」的高難度測試,GPT-5也名列前茅。

在編程能力方面,GPT-5以74.9%的成績微幅領先Anthropic剛發布的Claude Opus 4.1(74.5%),重新奪回了編程界的王座。在大學級視覺問題解決測試中,GPT-5獲得84.2%的分數,而Claude Opus只有77.1%。

然而,OpenAI也坦承:「基準測試的數字雖然令人興奮,但我們正在接近飽和點。當你在某個基準測試中從98%提升到99%時,你需要其他東西來真正展現模型的優秀程度。」

- #革命性的統一模型架構

GPT-5帶來的一個重大改變是結束了用戶需要選擇不同模型的困擾。過去用戶需要在GPT-4、O3、O3 Pro等不同模型間做選擇,現在一切都統一為GPT-5。

當用戶輸入提示詞時,GPT-5會自動決定需要多長的思考時間,以及採用什麼方式來獲得最佳回應。這種智能化的自動調整,大大簡化了用戶體驗。

模型在處理細節方面也有了顯著提升。如果你給它一個包含大量細微要求的長提示詞,GPT-5能夠準確捕捉並執行這些細節要求。更重要的是,當它發現走錯方向時,能夠有效地回溯並修正路徑。

- #前所未有的速度與可用性

幾乎所有早期測試者都對GPT-5的速度讚不絕口。這種速度提升不僅體現在生成回應的時間上,更重要的是在保持高質量輸出的同時實現了極速響應。

在可用性方面,OpenAI採取了前所未有的開放策略。GPT-5對所有用戶開放,無論是免費用戶還是付費用戶都能使用。Plus訂閱用戶獲得更多使用額度,而Pro用戶則能訪問GPT-5 Pro版本,該版本具有延長推理能力,能提供更全面準確的答案。

Pro用戶基本上享有無限使用權限,這在OpenAI的歷史上是罕見的慷慨舉措。

- #AI助理功能的重大升級

GPT-5正在從一個聊天工具轉變為真正的個人助理。從下週開始,它將能夠訪問用戶的Gmail和Google Calendar,實現更深度的個人化服務。

在演示中,GPT-5展示了如何查看用戶的日程安排,提供半小時為單位的日程概覽,檢查需要處理的郵件,甚至能根據行程安排幫助用戶準備行李。這種整合讓AI真正成為了生活和工作中的得力助手。

語音功能也迎來重大更新,現在連免費用戶都能無限使用語音聊天。付費用戶則享有近乎無限的使用權限。語音功能的可定制性大幅提升,用戶可以要求AI只用一個詞回答問題,它就會嚴格遵守這個指令。

- #令人驚嘆的編程能力展示

發布會上展示的編程能力讓許多開發者為之驚嘆。其中最令人印象深刻的是一個完全3D的城堡遊戲,僅用一個提示詞就能生成。

這個遊戲具有完整的3D視角,可以360度旋轉查看城堡的每個角度。遊戲中有行走的守衛、聊天系統,玩家可以與城堡中的角色對話。更有趣的是,遊戲還包含了射擊氣球的玩法元素,玩家需要操控大砲擊落飛行的氣球。

另一個令人驚豔的演示是財務儀表板的生成。GPT-5創建了一個設計精美、配色協調的儀表板,當鼠標懸停在圖表上時,能實時顯示具體數據。所有這些複雜的功能都是通過單一提示詞實現的。

- #安全性的重大突破

在AI安全方面,GPT-5取得了顯著進展。幻覺率(錯誤生成虛假信息)從O3模型的4.5%降低到了0.7%,這是一個巨大的改進。

更令人關注的是對「欺騙行為」的控制。在編碼欺騙測試中,GPT-5的欺騙率只有16.5%,而之前的模型高達47.4%。在缺失圖像測試中,欺騙率從86.7%降至9.9%。

GPT-5還改進了拒絕回答的方式。當用戶詢問敏感話題時,它不再簡單地說「抱歉,我無法幫助」,而是會指向合法的資源和道德考量,展現出更好的意圖理解能力。

- #API生態系統的全面升級

對開發者而言,GPT-5帶來了豐富的API選項。提供三種版本:標準GPT-5、GPT-5 Mini(中等規模)和GPT-5 Nano(輕量級版本),價格與性能相匹配。

新增的「推理努力」(reasoning effort)參數讓開發者能夠控制模型的思考深度。需要快速響應時可以設置低推理努力,需要深思熟慮的答案時則可以提高該參數。

另一個創新是「詳細程度」(verbosity)參數,開發者可以控制輸出的長短,這對於不同應用場景極為實用。上下文窗口擴展到了40萬tokens,約等於30萬字的輸入輸出能力。

- #業界反應的兩極分化

儘管數據亮眼,業界對GPT-5的反應卻呈現兩極分化。許多日常關注AI發展的專業人士表示,這次更新感覺更像是漸進式改進,而非革命性飛躍。

有評論者指出:「從GPT-3.5到GPT-4的飛躍感覺是巨大的。當時他們展示了在紙上畫網站草圖,拍照後就能生成代碼的功能,這是我們從未見過的。但這次感覺更像是從GPT-4到O3模型的提升。」

批評者認為,發布會缺少了那種「哇」的時刻。沒有展示新的多模態功能,沒有整合Sora視頻生成,也沒有展示與AI代理的協同工作。這些本可以讓GPT-5真正與眾不同的功能都缺席了。

- #編程領域的新霸主

然而,在編程領域,GPT-5獲得了壓倒性的好評。Cursor的創始人在發布會上表示,這是目前市場上最好的編程模型,Cursor將默認使用GPT-5。

一位測試者使用單一提示詞「製作一個Vampire Survivors克隆遊戲,要美觀且功能完整」,GPT-5在3分鐘內生成了565行代碼。遊戲不僅可以運行,還具有漸進式難度、多種敵人類型、升級系統和多樣化武器。測試者評價這是他見過的最好的單提示詞遊戲生成結果。

這種強大的編程能力正在改變整個行業的走向。正如評論者所說:「大型語言模型公司們都意識到,為個人編寫定制化應用是LLM的殺手級應用。如果它能寫代碼,它就能做任何事。」

參考資料來源:https://www.youtube.com/watch?v=K_mlC_aeDSU

Read more

6個AI技能讓你立即獲得工作優勢

在這個充滿變化的職場環境中,掌握實用的AI技能不僅能讓你脫穎而出,更能最大化你的專業成長潛力。關鍵在於理解AI不是要取代你,而是要成為你能力的放大器。 - - #AI工具的三大類型架構 在深入技能學習之前,我們需要了解工作中會遇到的三種AI類型: 獨立AI聊天機器人:如ChatGPT、Gemini、Claude、Grok等,適合處理大多數一般工作任務,只需開啟應用程式即可透過對話完成各種任務。 整合AI功能:內建在你已使用的工作應用程式中,例如Gmail中的Gemini或Microsoft Office中的Co-pilot,讓你在熟悉的工作環境中直接使用AI。 專業AI解決方案:針對特定任務設計的客製化工具,如Grammarly用於寫作優化、Descript用於影片編輯等。 理解這些AI類型後,你就能策略性地運用以下六大關鍵技能。 - - #AI提示工程:清晰溝通的藝術 AI提示工程聽起來很技術性,但本質上就是如何與AI有效溝通。想像你在指導一位新實習生,你會如何確保他理解你的需求? 兩大核心原則:清晰思考與清晰溝通 市面上雖

By andy

新創付費廣告獲客策略

許多創業者都會犯同一個致命錯誤:先花費大量時間開發產品,再來思考如何獲取客戶。營銷專家Cody Schneider在最新分享中顛覆了這個觀念,他認為應該先驗證市場需求,確認能夠獲得付費客戶,再開始產品開發。這位曾幫助無數新創公司成功獲客的專家,毫無保留地分享了完整的付費廣告策略。 - #顛覆傳統的新創思維 Schneider強調一個核心觀念:「商業的本質就是擁有人們想買的東西,並能夠賣給他們。」他建議創業者在開發任何產品之前,都應該先研究關鍵字搜尋量,確認市場需求。 他以YouTube頻道郵件提取工具為例說明。這個工具每月搜尋量只有100-300次,看似微不足道,但Schneider指出:「我有好幾個每月搜尋量只有100的應用程式,靠它們我付了10年的房租。」 關鍵在於商業模式:如果你有100個客戶,每月付費49美元,那就是每月4,900美元的收入。這種工具型產品的利潤率高達95%,幾乎不需要客服支援。 - #Google廣告策略全解析 Schneider詳細說明了Google廣告的設置策略。他建議從點擊量開始測試,而非直接追求轉換:「我首先想了解的

By andy

這款免費AI工具可能徹底取代Photoshop!神秘Nano Banana震撼登場

一款名為「Nano Banana」的革命性AI圖片編輯工具正在科技圈掀起巨大轟動,這個神秘工具的編輯能力甚至超越了GPT-4o,被譽為可能完全取代Photoshop的劃時代產品。更令人驚喜的是,目前你可以透過特殊方式免費體驗這款工具的強大功能。 - #神秘身份與驚人能力 Nano Banana目前仍處於秘密開發階段,甚至沒有任何公司正式承認這是他們的產品。雖然傳聞指向Google,但官方尚未證實。這款工具的核心能力令人震撼:只需給它一張圖片,告訴它你想要的改變,它就能精確執行,而且效果驚人地自然。 從實際測試案例可以看出,Nano Banana具備了前所未有的圖像理解能力。它能夠在編輯過程中完美保持人物的面部特徵、服裝風格,甚至是環境的一致性。這種技術突破代表著AI圖像編輯進入了全新的階段。 - #技術突破展示令人驚嘆 在多個實際案例中,Nano Banana展現出了超乎想像的編輯精度。一個令人印象深刻的例子是將三名女性從室內場景轉移到撞球桌旁,不僅成功完成了場景轉換,還保持了人物的面部特徵、服裝細節,甚至連環境光線都處理得相當自然。 更令人驚嘆的是

By andy

Google Nano Banana AI圖像革命

Google剛剛發布了一個可能改變整個創意產業的AI模型:Nano Banana(Gemini 2.5 Flash Image)。這個被稱為「有史以來最好的圖像模型」的新技術,不僅能讓你用自然語言編輯圖片,更能以僅僅4美分的成本生成專業級廣告素材。Google AI團隊資深成員Logan Kilpatrick親自示範了這個模型的驚人能力,揭示了一個令人興奮的商業機會。 - #重新定義圖像創作的遊戲規則 Nano Banana最令人震撼的特色,就是將複雜的圖像編輯變得像聊天一樣簡單。Logan展示了這個模型的核心能力:「你可以放置產品、保持角色一致性、改變場景、編輯特定部分,並擁有完全的控制權。這基本上就像Photoshop,除了你不需要雇用人來編輯,你只需要用plain language就可以了。」 更重要的是成本優勢。每張圖像生成只需要大約4美分,這意味著1000張圖像才40美金。對於需要大量視覺內容的企業來說,這個價格幾乎等於免費。 生成速度同樣令人印象深刻。不像其他需要等待45秒的圖像生成工具,Nano Banana的速度讓你可以建立即時互動的產品體驗,這

By andy