Inception釋出Mercury 2，快速突破大語言模型延遲瓶頸

Inception公司推出了Mercury 2，聲稱這是世界上最快的推理型大語言模型快速。該模型專為生產級AI應用設計，採用並行最佳化而非傳統的順序解碼技術。

Mercury 2於2月24日正式釋出，開發者可透過Inception官網申請訪問許可權，也可以透過Inception聊天介面體驗這款模型快速。

Inception表示，Mercury 2旨在解決大語言模型常見的瓶頸問題，即自迴歸順序解碼的限制快速。該模型透過並行最佳化生成響應，這一過程能夠同時產生多個Token，並在少數幾個步驟內實現收斂。根據公告，並行最佳化不僅大幅提升了生成速度，還改變了推理權衡機制。

通常情況下，更高的智慧水平意味著測試時需要更多計算資源，包括更長的鏈條、更多樣本和更多重試，這些都會導致更高的延遲和成本快速。Mercury 2採用基於擴散的推理技術，在即時延遲預算範圍內提供推理級別的質量。

該公司表示，Mercury 2與OpenAI API相容，特別適用於對延遲敏感且使用者體驗要求極高的應用場景快速。主要用例包括程式碼編寫和編輯、智慧體迴圈、即時語音和互動，以及搜尋和RAG操作管道。

Q&A

Q1：Mercury 2是什麼快速？有什麼特別之處？

A：Mercury 2是Inception公司開發的大語言模型，被稱為世界上最快的推理型大語言模型快速。它的特別之處在於採用並行最佳化技術而非傳統的順序解碼，能夠同時產生多個Token，大幅提升生成速度並降低延遲。

Q2：Mercury 2適合哪些應用場景快速？

A：Mercury 2特別適用於對延遲敏感且使用者體驗要求極高的應用場景，包括程式碼編寫和編輯、智慧體迴圈、即時語音和互動，以及搜尋和RAG操作管道等生產級AI應用快速。

Q3：如何使用Mercury 2快速？

A：開發者可以透過Inception公司官網申請訪問許可權，也可以透過Inception聊天介面體驗該模型快速。Mercury 2與OpenAI API相容，便於開發者整合到現有系統中。