6月20日周四,OpenAI競爭對手Anthropic發布了公司迄今為止性能最強大的AI模型Claude 3.5 Sonnet。
在覆蓋閱讀、編程、數學和視覺等領域的多項性能測試中,Claude 3.5 Sonnet的性能略勝一籌,吊打GPT-4o等一眾競爭對手的AI模型,且優于自家旗艦模型Claude 3 Opus。當然,也有些測試不能完全反映AI在現實運用的情況,偏小眾和個例。
Anthropic的產品負責人Michael Gerstenhaber自信表示道:“對企業來說,重要的是AI是否能幫助他們滿足業務需求,而不是AI在性能測試中是否具有競爭力,從這個角度來看,我相信Claude 3.5 Sonnet將領先于我們現有的任何其他產品,也領先于行業中的任何其他產品。”
定價方面,新模型定價與前代3 Sonnet模型相同,即每輸入百萬token為3美元,每生成百萬token為15美元,并具有20萬個token的上下文窗口,約合15萬個單詞。Token是數據的細分單元,例如單詞“fantastic”中的“fan”、“tas”和“tic”。
現在,用戶可以通過Anthropic的網頁客戶端和iOS應用免費試用新模型,而訂閱了Claude Pro和Claude Team的用戶將享受5倍的速率限制。此外,新模型也在Anthropic的API以及亞馬遜Bedrock和谷歌云的Vertex AI等托管平臺上上線。
今年晚些時候,公司還將推出更大更好的模型,如Claude 3.5 Haiku和Claude 3.5 Opus。后者配備有網絡搜索和偏好記憶等功能。
最強視覺模型、速度提升兩倍、幽默感增加、內容迭代功能
和前一代模型Claude 3 Opus相比,新模型在多個方面實現了性能上的提升。Anthropic在一篇博客中寫道:“它在把握細微差別、幽默和復雜指示方面有顯著進步,在以自然、合理的語氣撰寫高質量內容方面也十分出色。此外,它還可以編寫、編輯和執行代碼。”
例如,與3 Opus相比,Claude 3.5 Sonnet在理解復雜指令和細微差別方面更為出色,甚至能夠更好地把握幽默概念,盡管AI在幽默感方面通常表現不佳。
對于需要快速響應的應用程序,如客戶服務聊天機器人,3.5 Sonnet的處理速度是Claude 3 Opus的兩倍,成本只有其五分之一。
視覺分析方面,3.5 Sonnet能夠更準確地解讀圖表和圖形,并能從存在失真和視覺偽影的“不完美”圖像中轉錄文本。
除了新模型的推出,Anthropic還推出了新功能“Artifacts預覽版”,這是一個工作空間,允許用戶能夠編輯和迭代AI模型生成的內容。
想象一下,你在使用一個AI助手來幫你寫代碼。當你向AI提出你的要求后,AI會生成一段代碼。在Artifacts功能中,這段代碼不僅僅是顯示給你,而是會以一種可以操作和修改的形式出現在你的界面上,就像是一個“工件”或是一個“草稿”。
接下來,你可以對這段代碼進行迭代——也就是說,你可以修改它,增加新的功能,或者和 AI 助手“Claude”交流,告訴它你的修改意見或新的需求。AI 會根據你的反饋再次生成代碼,你則可以繼續這個過程,直到代碼達到你的期望,可以被實際運行。
這個過程就像是你和AI一起合作,不斷地打磨和完善最終的產品。Artifacts提供了一個平臺,讓你能夠更容易地與AI模型互動,并且對生成的內容進行有效的管理和優化。
目前Artifacts處于預覽階段,Anthropic計劃在未來為其增加新功能,比如支持與大型團隊協作和知識庫存儲。
此外,媒體稱,Claude 3.5 Sonnet雖然是一個先進的AI模型,但它并不完美,仍然可能會犯錯。盡管如此,它的能力可能足以吸引開發者和企業轉向Anthropic的平臺。畢竟,這才是對Anthropic最重要的。
模型改進部分歸功于訓練數據,但來源不明
Anthropic的產品負責人Michael Gerstenhaber表示,這些改進歸功于模型架構的調整和新的訓練數據(包括AI生成的數據)。至于具體是哪些數據帶來了這些增強?Gerstenhaber沒有透露詳細信息。
出于保護商業機密和避免法律挑戰的考慮,訓練數據的具體細節尚未公開,但Claude 3.5 Sonnet和公司以往AI模型一樣,經過了大量文本和圖像的訓練,并通過人類測試人員的反饋,試圖讓模型與用戶的意圖“保持一致”,希望以此防止模型生成有害或有問題的文本。
目前法院尚未做出裁決,即Anthropic等供應商及其競爭對手(如 OpenAI、谷歌、亞馬遜等)是否有權使用公共數據(包括受版權保護的數據)進行訓練,而無需向這些數據的創作者提供補償。
新模型對Anthropic和AI生態系統有何意義?
今年3月,Anthropic推出了Claude 3系列模型。隨后,OpenAI在5月份推出了GPT-4o。6月20日Anthropic又推出了Claude 3.5家族的第一款模型“Claude 3.5 Sonnet”。
媒體指出,在AI技術的不斷演進中,Anthropic公司的Claude 3.5 Sonnet模型雖未帶來翻天覆地的變化,卻代表了AI模型發展的現階段現實:在期待重大科研突破的同時,實現逐步的性能提升,即在等待重大研究突破的同時,持續進行小步快跑。
近幾個月,包括谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o在內的旗艦產品,僅在基準測試和性能上實現了小幅提升。由于現有模型架構的局限性和訓練所需的巨大計算資源,業界尚未再次見證類似從GPT-3到GPT-4的巨大飛躍。
隨著生成性AI供應商將重點轉向數據整理和許可,投資者對于生成性AI投資回報的預期變得更加審慎。Anthropic得益于亞馬遜(以及谷歌的較小程度支持)的有利位置,相對免受這種壓力的影響。然而,Anthropic預計到2024年底的營收僅略低于10億美元,與OpenAI相比仍有較大差距。
Anthropic擁有包括Bridgewater、Brave、Slack和DuckDuckGo等知名品牌在內的不斷增長的客戶群,但在企業信譽方面仍有提升空間。值得注意的是,普華永道最近選擇與OpenAI合作,而非Anthropic,以向企業轉售生成性AI產品。
Anthropic意識到,隨著模型之間能力差距的縮小,建立一個圍繞模型構建生態系統(而不是孤立的模型)是留住客戶的關鍵。
一方面,為了留住客戶,Anthropic在加強工具開發。比如允許開發人員深入控制AI模型的內部功能,以及讓AI模型能夠在應用程序中執行特定的操作。這些工具包括前面提到的Artifacts。
另一方面,公司在擴展團隊和市場。Anthropic聘請了Instagram的聯合創始人作為產品負責人,這表明公司在產品開發方面的重視。此外,公司在倫敦和都柏林設立了辦公室,這有助于擴大其產品的市場覆蓋。
當然,成本也很重要。Anthropic產品負責人Michael Gerstenhaber表示:“當你在構建應用程序時,最終用戶不需要關心背后使用的模型或優化細節,而工程師則可以利用工具來優化體驗,其中成本是一個重要因素。”