☰

Mistral對標ChatGPT全面升級le Chat，還祭出超大杯多模態模型

機器之心報道

編輯：蛋醬、陳陳

一覺醒來，Mistral AI 又發力了。

就在今天，Mistral AI 多模態家族迎來了第二位成員：一個名爲 Pixtral Large 的超大杯基礎模型。

這是一個基於 Mistral Large 2 構建、124B 開放權重的多模態模型，具備頂尖的圖像理解能力 —— 能夠看懂文檔、圖表和自然圖像，同時保持 Mistral Large 2 領先的純文本理解能力。

除了發佈新模型，Mistral AI 還進一步升級了免費聊天機器人 le Chat，增加圖像生成、網絡搜索和交互式畫布功能，全面對標 ChatGPT。

所有這些功能，統統以免費測試版的形式開放。

Mistral AI 的每一次更新，都會讓整個 AI 社區興奮起來。

有人感嘆：「六個月前，開源模型和閉源模型之間的差距非常大。現在，最先進的人工智能正在迅速向任何想要使用它的人開放。」

到底有多強？

接下來，讓我們看看發佈細節吧。

開源多模態大模型 Pixtral Large

Pixtral Large 可根據 Mistral 研究許可證 (MRL) 用於研究和教育用途，同時根據 Mistral 商業許可證用於商業目的的實驗、測試和生產。

Pixtral Large 前身是 2024 年夏季發佈的 Mistral Large 2，以及 9 月份發佈的首個多模態模型 Pixtral 12-B。關於將多模態模型擴展到 1240 億參數的出發點，Mistral AI CEO 是這麼說的：「我們越來越意識到，要創造最佳的 AI 體驗，需要共同設計模型和產品界面。Pixtral 在訓練時就考慮到了高影響力的前端應用，是一個很好的例子。」

Pixtral Large 包括一個 1230 億參數解碼器和一個 10 億參數視覺編碼器，使其在文本和視覺數據處理方面均表現出色。

Pixtral Large 上下文窗口爲 128K，至少可以處理 30 張高分辨率圖像或大約一本 300 頁的書，這相當於領先的 OpenAI GPT 系列模型的能力。

在性能方面，該模型在包括 MathVista、DocVQA 和 VQAv2 在內的多種基準上展現出了最先進的性能，非常適合圖表解釋、文檔分析和圖像理解等任務。

具體而言，在 MathVista 基準上，Pixtral Large 實現了 69.4% 的準確率，優於所有其他模型。在 ChartQA 和 DocVQA 基準上， Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

Pixtral Large 在 MM-MT-Bench 上也展示了強有力的競爭力，優於 Claude-3.5 Sonnet（新版）、Gemini-1.5 Pro 和 GPT-4o（最新版）。

在圖像理解方面，Pixtral Large 也表現優異。比如上傳一份賬單，詢問該模型：「我買了咖啡和香腸，外加 18% 的小費。我該付多少錢？」

Pixtral Large 會非常有條理地給出總消費金額，先是計算了咖啡和香腸的費用，2 杯拿鐵瑪奇朵、 1 份香腸，然後計算 18% 的小費，最後給出總金額。

Pixtral Large 也能準確理解並分析圖表。比如對於下面的訓練損失曲線圖，問 dark dragon 模型什麼時候開始出現問題。

Pixtral Large 分析的也很準確：「在達到 10,000 step 時，訓練損失開始出現不穩定…… 隨後，這種不穩定性持續存在，並在 20,000step 附近出現了另一個大的峰值……」

在接下來的示例中，上傳一張圖片，問 Pixtral Large 哪些公司使用 Mistral AI 模型？

Pixtral Large 也能根據圖片提供的信息給出準確的結果，回答過程如下。

除了 Pixtral Large，Mistral AI 最先進的文本模型 Mistral Large 也迎來了一次更新。該模型在 API 上以 pixtral-large-latest 的形式提供，在 HuggingFace 上以 Mistral Large 24.11 的形式提供。

Mistral Large 24.11 將首先在 Google Cloud 和 Microsoft Azure 上推出，預計一週內即可使用。

對標 ChatGPT 大升級

le Chat 已經強得可怕

Pixtral Large 的發佈，也讓 le Chat 的能力上升到了一個新的高度。

le Chat 現在可以處理大型、複雜的 PDF 文檔和圖像，比如一篇理論文獻的所有內容 —— 圖形、表格、圖表、文本、公式、方程式。

下面的例子展示了愛因斯坦、波多爾西和羅森於 1935 年撰寫的著名量子糾纏論文的信息提取、總結和語義理解。

視頻鏈接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd

此外還有兩項新能力登陸 le Chat：

首先是實時的網絡搜索。這是一項關於生產力的升級，Mistral AI 表示，le Chat 的大部分用戶來自學生和專業人士，而這些用戶非常看重其在學習、研究和工作中的作用。

下面是一位營銷類專業人士使用 le Chat 來評估醫療保健人工智能市場：

然後是新的 Canvas 界面。當用戶需要暫時離開對話進行構思時，它會彈出到 le Chat 窗口中，隨後用戶可以和 Mistral LLM 合作完成共享輸出。

從此，我們和聊天機器人的互動不再侷限於雙向對話。藉助 LLM 強大的推理能力，Canvas 可以用來創建文檔、演示文稿、代碼、模型等，亮點在於「就地修改」內容，無需重新生成回覆、版本控制草稿並預覽設計。

比如在下方演示中，是一個產品團隊爲準備推出 Canvas 而創建產品指標儀表板的反應模型的視頻。

Mistral AI 與 SD 作者團隊成立的 Black Forest Labs 也達成了合作，因此 le Chat 擁有了高質量的圖像生成能力。

最後，如果你想馬上體驗到 Mistral AI 最新放送的搜索、PDF 上傳、編碼、圖像生成等所有功能，請訪問：http://chat.mistral.ai/

https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/

Mistral對標ChatGPT全面升級le Chat，還祭出超大杯多模態模型

相關資訊