Mistral對標ChatGPT全面升級le Chat,還祭出超大杯多模態模型
機器之心報道
編輯:蛋醬、陳陳
一覺醒來,Mistral AI 又發力了。
就在今天,Mistral AI 多模態家族迎來了第二位成員:一個名爲 Pixtral Large 的超大杯基礎模型。
這是一個基於 Mistral Large 2 構建、124B 開放權重的多模態模型,具備頂尖的圖像理解能力 —— 能夠看懂文檔、圖表和自然圖像,同時保持 Mistral Large 2 領先的純文本理解能力。
除了發佈新模型,Mistral AI 還進一步升級了免費聊天機器人 le Chat,增加圖像生成、網絡搜索和交互式畫布功能,全面對標 ChatGPT。
所有這些功能,統統以免費測試版的形式開放。
Mistral AI 的每一次更新,都會讓整個 AI 社區興奮起來。
有人感嘆:「六個月前,開源模型和閉源模型之間的差距非常大。現在,最先進的人工智能正在迅速向任何想要使用它的人開放。」
到底有多強?
接下來,讓我們看看發佈細節吧。
開源多模態大模型 Pixtral Large
Pixtral Large 可根據 Mistral 研究許可證 (MRL) 用於研究和教育用途,同時根據 Mistral 商業許可證用於商業目的的實驗、測試和生產。
Pixtral Large 前身是 2024 年夏季發佈的 Mistral Large 2,以及 9 月份發佈的首個多模態模型 Pixtral 12-B。關於將多模態模型擴展到 1240 億參數的出發點,Mistral AI CEO 是這麼說的:「我們越來越意識到,要創造最佳的 AI 體驗,需要共同設計模型和產品界面。Pixtral 在訓練時就考慮到了高影響力的前端應用,是一個很好的例子。」
Pixtral Large 包括一個 1230 億參數解碼器和一個 10 億參數視覺編碼器,使其在文本和視覺數據處理方面均表現出色。
Pixtral Large 上下文窗口爲 128K,至少可以處理 30 張高分辨率圖像或大約一本 300 頁的書,這相當於領先的 OpenAI GPT 系列模型的能力。
在性能方面,該模型在包括 MathVista、DocVQA 和 VQAv2 在內的多種基準上展現出了最先進的性能,非常適合圖表解釋、文檔分析和圖像理解等任務。
具體而言,在 MathVista 基準上,Pixtral Large 實現了 69.4% 的準確率,優於所有其他模型。在 ChartQA 和 DocVQA 基準上, Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。
Pixtral Large 在 MM-MT-Bench 上也展示了強有力的競爭力,優於 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。
在圖像理解方面,Pixtral Large 也表現優異。比如上傳一份賬單,詢問該模型:「我買了咖啡和香腸,外加 18% 的小費。我該付多少錢?」
Pixtral Large 會非常有條理地給出總消費金額,先是計算了咖啡和香腸的費用,2 杯拿鐵瑪奇朵、 1 份香腸 ,然後計算 18% 的小費 ,最後給出總金額。
Pixtral Large 也能準確理解並分析圖表。比如對於下面的訓練損失曲線圖,問 dark dragon 模型什麼時候開始出現問題。
Pixtral Large 分析的也很準確:「在達到 10,000 step 時,訓練損失開始出現不穩定…… 隨後,這種不穩定性持續存在,並在 20,000step 附近出現了另一個大的峰值……」
在接下來的示例中,上傳一張圖片,問 Pixtral Large 哪些公司使用 Mistral AI 模型?
Pixtral Large 也能根據圖片提供的信息給出準確的結果,回答過程如下。
除了 Pixtral Large,Mistral AI 最先進的文本模型 Mistral Large 也迎來了一次更新。該模型在 API 上以 pixtral-large-latest 的形式提供,在 HuggingFace 上以 Mistral Large 24.11 的形式提供。
Mistral Large 24.11 將首先在 Google Cloud 和 Microsoft Azure 上推出,預計一週內即可使用。
對標 ChatGPT 大升級
le Chat 已經強得可怕
Pixtral Large 的發佈,也讓 le Chat 的能力上升到了一個新的高度。
le Chat 現在可以處理大型、複雜的 PDF 文檔和圖像,比如一篇理論文獻的所有內容 —— 圖形、表格、圖表、文本、公式、方程式。
下面的例子展示了愛因斯坦、波多爾西和羅森於 1935 年撰寫的著名量子糾纏論文的信息提取、總結和語義理解。
視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd
此外還有兩項新能力登陸 le Chat:
首先是實時的網絡搜索。這是一項關於生產力的升級,Mistral AI 表示,le Chat 的大部分用戶來自學生和專業人士,而這些用戶非常看重其在學習、研究和工作中的作用。
下面是一位營銷類專業人士使用 le Chat 來評估醫療保健人工智能市場:
視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd
然後是新的 Canvas 界面。當用戶需要暫時離開對話進行構思時,它會彈出到 le Chat 窗口中,隨後用戶可以和 Mistral LLM 合作完成共享輸出。
從此,我們和聊天機器人的互動不再侷限於雙向對話。藉助 LLM 強大的推理能力,Canvas 可以用來創建文檔、演示文稿、代碼、模型等,亮點在於「就地修改」內容,無需重新生成回覆、版本控制草稿並預覽設計。
比如在下方演示中,是一個產品團隊爲準備推出 Canvas 而創建產品指標儀表板的反應模型的視頻。
視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd
Mistral AI 與 SD 作者團隊成立的 Black Forest Labs 也達成了合作,因此 le Chat 擁有了高質量的圖像生成能力。
最後,如果你想馬上體驗到 Mistral AI 最新放送的搜索、PDF 上傳、編碼、圖像生成等所有功能,請訪問:http://chat.mistral.ai/
https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/