上海AI實驗室版o1已上線!數學題、Leetcode全拿下,還會玩24點

國產o1新選手登場!

它能快速解決更復雜的數學解題、代碼編程、數字遊戲等任務。

這就是上海AI實驗室版o1——強推理模型書生InternThinker,剛剛正式開放試用!

新模型不僅在長思維能力方面有了很大提升,而且還能在推理過程中進行自我反思和糾正。

先來一起看兩個例子感受一下:

比如官方展示的這個有點複雜的填字遊戲。

InternThinker不僅一步步從易到難猜測出了答案,而且還能在做題的過程中不斷檢查是否存在衝突。

聽說這次InternThinker的編程能力也變強了,量子位馬上幫大家測試了一下。

在解答一道中等難度的Leetcode賽題中,InternThinker不僅根據題目要求分步寫出瞭解決思路,而且還在編寫完代碼之後針對整體邏輯和邊界條件進行了檢查:

把這個代碼直接提交了一下,結果真的通過了。

國外網友也都稱讚不已:中國公司的進步速度太快了!

在推理中自我反思、糾正

上海人工智能實驗室(上海AI實驗室)今年7月發佈的書生·浦語2.5已經實現了開源模型中領先的推理能力,而InternThinker則使大模型的推理能力再上新臺階。

團隊表示,在OpenAI o1模型發佈之前,他們就已開展了相關技術的獨創性探索與實踐:

在訓練數據側,在國內率先開發出大規模合成數據技術;在任務場景側,新模型在數學、代碼、推理謎題等多種場景都能體現出較強的推理能力,並具備一定的任務泛化性。

最新的強推理模型書生InternThinker具備長思維能力,並能在推理過程中進行自我反思和糾正,在數學、代碼、推理謎題等多種複雜推理任務上都取得了更優結果。

量子位還測試了更多InternThinker的實際體驗案例,一起來看看吧。

首先考察一下模型的數學能力,以2024年第65屆IMO國家集訓隊第一階段試題題目爲例,模型在讀取題目信息後會先列出相關的知識點,然後逐步進行推理計算,和人類解題的方式非常接近。

再來看看另外一個大家都很熟悉的數字遊戲24點,模型也能做到先列出相關的計算方法,然後根據最可能成功的思路進行嘗試,並在失敗時及時進行反思和重新嘗試。

最後來看一個比較抽象的推理問題:1天24小時之內時針和分針有多少次處於相對的位置。

這對人類來說都是一個很有難度的題,然而InternThinker在分析了時鐘角度和時針的對應關係之後,得出了公式規律,最終得出了正確答案!

怎麼做到的

InternThinker的表現真的讓人非常驚喜,據上海AI實驗室團隊的信息,他們主要利用了以下3種策略:

1.利用元認知理論學習思維模式

爲高效提升模型的推理能力,InternThinker採用了更接近人類學習方式的路徑。

人在學習解決複雜推理任務時,更多是學習思維模式,即通過回憶相關知識點,對正確的解題過程進行理解、記憶,對錯誤解題等過程進行反思和修正,進而解決更多的問題。

這種對自我的認知過程進行覺察和調節的能力也被稱作元認知能力。

受元認知理論的啓發,研究團隊設計了一系列元動作來引導模型解決問題的過程,如對問題的理解、知識回憶、規劃、執行、反思、總結等。

模型在面對複雜任務時,會顯式且動態地選擇元動作,再進一步展開相關動作的具體思維過程。通過這種設計,利用部分訓練任務,可強化模型對關鍵元動作組合的使用,顯著提升模型學習效率。

研究團隊認爲,模型在思考過程中能更靈活、多樣、有效地使用元動作,是模型在推理階段能夠利用更多思考時間解決更復雜任務的重要原因。

2.“通專融合”的高密度監督數據路徑

InternThinker率先獨創性地採用了基於通專融合的技術路線生產所需數據。

這樣一來,模型就可以獲取已有強推理模型的思維鏈數據並進行蒸餾,這也是提升數學等榜單性能及復現強推理模型的“捷徑”。

爲此,研發團隊設計了多種通用模型和專業模型的協作流程:

首先基於專家模型搜索出針對複雜任務的正確解決軌跡(但這種軌跡數據並不直接適用於元動作思維能力的訓練);

進而由通用模型對複雜任務解決過程進行覺察、分析、改造和質量完善,基於正確軌跡提升思維鏈的格式規範性和可學習性,最終產出用於模型訓練的數據。

在此過程中,模型和數據會交替迭代,達到協同增強的效果。

3.構建大規模沙盒環境:交互中獲得反饋信號

在訓練模型中,面對豐富多樣的推理任務,如何準確地獲得過程和結果反饋也非常重要。

爲此,團隊針對專業任務構建了大規模的沙盒環境,爲可形式化驗證的推理任務提供反饋信號,包括數十種編程語言的高效率代碼執行編譯環境,以及代碼領域之外的通用推理任務沙盒。

通過自動化專家模型、人機協同策略生成等方法,構建了超過50種不同邏輯思維方式的推理任務思考過程,通過沙盒環境提供思考過程的反饋,形成自下而上對模型思維能力的構建,爲模型的自主演進提供精準的反饋信號,這些策略使得InternThinker解決專業任務的能力得到了非常大的提升。

下一步,上海AI實驗室將把相關技術融入下一代書生大模型,並繼續沿着通專融合發展路徑,通過開源與產學研各界共同推動技術進步。

InternThinker已經開啓了測試使用,你可以通過下方鏈接測試更多有趣的題目!

試用鏈接:https://internlm-chat.intern-ai.org.cn