openai o3測試版是什麼?

Open ai的O3測試版是指Open的某個新功能或產品的測試版本。Open是一家致力於人工智慧研究和開發的公司,它們開發了各種模型和工具,如GPT系列模型、DALL-E影像生成器等。測試版通常是為了在正式釋出前收集使用者反饋、測試功能和完善產品。

然而,到2023年為止,Open並沒有公開宣佈一個名為“O3測試版”的產品或功能。因此,這可能是一個內部測試版本,或者是對某個即將釋出的新功能的預覽。如果你對Open的最新動態感興趣,建議關注Open的官方網站或社交媒體賬號,以獲取最新的官方資訊。

Open ai號稱o3在一些條件下接近通用人工智慧(AGI)。Open CEO Sam Altman在直播中說:“我們認為這是下一階段的開始。你可以使用這些模型來完成越來越複雜、需要大量推理的任務。”他還誇讚o3在程式設計方面的表現令人難以置信。

和前代o1模型一樣,o3透過思維鏈進行思考,逐步解釋其邏輯推理過程,總結出它認為最準確的答案。

o3有完整版mini版,新功能是可將模型推理時間設定為低、中、高,模型思考時間越高,效果越好。mini版更精簡,針對特定任務進行了微調,將在1月底推出,之後不久推出o3完整版

ARC-AGI是一項旨在評估系統推理首次遇到的極其困難的數學和邏輯問題能力的基準測試,由Keras之父François Chollet發起。在ARC-AGI測試中,o3在高推理能力設定下取得了87.5%的分數,在低推理能力設定下的分數也高達o1的3倍

這一成績令社交平臺一片雀躍,認為技術發展非但不見放緩,反而展示出比預期更快的通往AGI的速度。

要知道,之前GPT-3的評測結果為0%,GPT-4o為5%,而o3一舉將成績提升到87.5%,令人瞠目。與之前的大模型相比,o3能適應以前從未遇到過的任務,可以說接近人類水平的效能

François Chollet釋出了o3的完整測試報告。o3在兩個ARC-AGI資料集中進行了測試,並在兩個具有可變樣本量的計算級別上進行了測試:6(高效率)和1024(低效率,172倍計算)。其中,75.7%的高效率分數在ARC-AGI-Pub的預算規則範圍內(成本<10000美元),87.5%的低效率分數成本則相當昂貴,但仍然表明新任務的效能確實會隨著計算量的增加而提高。

目前o3還不是很經濟。使用者能夠以每項任務大約5美元(摺合人民幣約36元)的價格來支付人工解決ARC-AGI任務,只消耗幾美分的能源。而在低推理模式下,o3完成每個任務需要花費17-20美元(摺合人民幣約124~145元)。

Open明年將與ARC-AGI背後的基金會合作構建其下一個基準測試。

其他基準測試中,o3亦有遠勝競品的表現。

在由真實世界軟體任務組成的SWE-Bench Verified基準測試中,o3模型的準確率約為71.7%,比o1模型高出20%以上。Open研究高階副總裁Mark Chen說:“這確實意味著我們正在攀登實用性的前沿。

產品推廣
TOP1
美國高防伺服器2*E5-26

美國高防伺服器 2×E5-26 配備 雙...

TOP2
美國高防伺服器E3 100G防禦

美國高防伺服器 E3 系列 搭載 Int...

TOP3
美國站群伺服器E5-2650*2

美國站群伺服器 E5-2650 × 2 ...

美國站群服務E5 480G SSD

美國站群伺服器 E5 系列 配備 Int...

美國站群伺服器E5-2660*2

美國站群伺服器 E5-2660 × 2 ...

美國站群伺服器E3-1230v3

美國站群伺服器 E3-1230v3 配備...

0.018234s