亞馬遜連甩6款大模型!推出3nm AI訓練芯片,最強AI服務器算力爆表

智東西作者 ZeR0 程茜編輯 漠影

全球最大雲計算巨頭,今日掏出硬核家底!

智東西12月3日拉斯維加斯報道,在年度雲計算產業盛會AWS re:Invent大會上,AWS(亞馬遜雲科技)一口氣發佈6款大模型、預告2款大模型,還推出3nm第三代AI訓練芯片Trainum3及其迄今最強AI服務器Trn2 UltraServer。

這是Amazon Nova系列基礎模型首次亮牌。

包括Micro、Lite、Pro、Premier四個版本的語言模型,還有圖像生成模型Canvas、視頻生成模型Reel。其中Reel現支持生成6秒視頻,很快將會延長到2分鐘。

亞馬遜總裁兼CEO安迪·賈西現場劇透:明年,AWS不僅將發佈語音轉語音模型,還有更高能的任意轉任意(Any-to-Any)模型——能輸入和輸出文本、圖像、音頻、視頻等任何模態的內容。

這些模型均在Bedrock中提供,可微調和蒸餾。

此外,AWS CEO馬特·加曼宣佈推出最新生成式AI實例Amazon EC2 Trn2,比當前基於GPU的EC2實例的性價比高出30%~40%。

蘋果機器學習和人工智能高級總監Benoit Dupin來到現場,稱蘋果在iPad、Apple Music、Apple TV、新聞、App Store、Siri等產品和服務上廣泛使用了亞馬遜服務。

他特別分享道,與x86實例相比,蘋果已用Amazon Graviton、Inferentia等AWS芯片在機器學習推理工作負載方面實現了40%以上的效率提升,並預計在Trainium 2上預訓練模型時,效率將提高50%。

被亞馬遜豪擲80億美元投資的Anthropic,宣佈與AWS共同構建面向機器學習訓練的世界最大計算集羣,其下一代Claude大模型將在擁有數十萬顆Trainium2芯片的集羣上進行訓練。

總體來看,AWS的計算、存儲、數據庫、AI推理,四大板塊都迎來一大波重要更新。

一、全新自研大模型Amazon Nova系列登場!文本、圖像、視頻齊活了

亞馬遜總裁兼CEO安迪·賈西現場分享了生成式AI如何貫穿亞馬遜不同業務,包括改善了電商客服、賣家詳情頁創建、庫存管理、機器人、Alexa、Amazon Lens、線上購物衣服尺碼匹配、Prime Video等的效率和體驗。

然後,他公佈全新大模型系列——Amazon Nova!

Nova語言模型有四款:

(1)Micro:純文本模型,128k上下文窗口,延遲最低,響應速度最快。

(2)Lite:成本很低的多模態模型,300k上下文窗口,可快速處理圖像、視頻和文本輸入。

(3)Pro:多模態模型,300k上下文窗口,兼顧準確度、速度和成本,能進行視頻理解、生成創意素材。

(4)Premier:亞馬遜功能最強的多模態模型,可用於執行復雜的推理任務,並可用作蒸餾自定義模型的最佳老師(將於2025年第一季度推出)。

據介紹,Micro、Lite和Pro的價格至少比Amazon Bedrock中各自智能類別中性能最佳的模型便宜75%。它們也是Amazon Bedrock中各自智能類別中速度最快的模型。

AWS稱到2025年初,某些Nova模型的上下文窗口將擴展以支持超過200萬個token。

在基準測試中,Micro版整體性能超過Gemini 1.5 Flash 8B和Llama 3.1 8B。

Lite在處理輕量級任務時是最低成本的多模態模型。

新發布的另外兩個Nova模型是圖形生成模型Canvas和視頻生成模型Reel,可用於提升宣傳廣告的創意。

Canvas支持生成和編輯圖像,提供配色方案和佈局控件,並內置有安全控件,用於可追溯性的水印和用於限制有害內容生成的內容審覈。

Reel可根據關鍵詞或可選的參考圖像生成6秒視頻,支持用戶調整攝像機運動以生成具有平移、360度旋轉和縮放的視頻。可製作2分鐘視頻的版本即將推出。

▲用Amazon Nova Reel創作的視頻示例

這些模型支持自定義微調和蒸餾。

還有One More Thing:

AWS將在明年推出另外兩款Nova模型,一款是“語音轉語音”模型;另一款是“任意轉任意”多模態模型,其輸入和輸出可以是文本、圖像、音頻或視頻,也就是能用同一個模型執行各種任務。

除了發佈自研模型,AWS也公佈了跟Anthropic的合作新進展。

AWS與Anthropic合作推出了Claude 3.5 Haiku延遲優化版,將推理速度提高60%。

客戶只需打開API的開關,請求就會被髮到新的Trainium2服務器上。

Amazon Bedrock提供的延遲優化選項,支持客戶訪問其最新AI硬件和其他軟件優化,以獲得模型的最佳推理性能。除了Claude模型外,還包括Llama 405B和較小的Llama 270B模型,處理請求和生成相應的總耗時比其他產品低得多。

二、AWS Trainium2實例全面推出,發佈第三代AI訓練芯片、最強AI服務器

AWS全面推出由Trainium2芯片驅動的Amazon EC2 Trn2實例,相比當前基於GPU的EC2實例,性價比高出30%~40%。

全新Amazon EC2 Trn2實例專爲包括大語言模型和潛在擴散模型在內的生成式AI高性能深度學習訓練而構建。

其AI硬件全家桶也哐哐上新,推出第三代自研AI訓練芯片Trainium3,還發布了其史上最強AI服務器Trn2 UltraServer。

1、第三代自研AI訓練芯片

AWS發佈了新一代AI訓練芯片Trainium3。這是首款採用3nm工藝節點製造的AWS芯片,能效提高40%、性能翻倍提升。

搭載Trainium3的UltraServer性能預計將比Trn2 UltraServer高出4倍。首批基於Trainium3的實例預計將於2025年底上市。

2、最強AI服務器,64顆Trainium2合體

AWS發佈其史上最強AI服務器AWS Trn2 UltraServer,能支撐萬億參數AI模型的實時推理性能。

全新Trn2 UltraServer使用超高速NeuronLink互連,將4臺Trn2服務器連接在一起,形成1臺巨型服務器,實現更快的大模型訓練和推理。

單個Trn2實例結合了16顆Trainium2芯片,可提供20.8PFLOPS,適合訓練和部署有數十億個參數的大語言模型。

全新EC2產品Trn2 UltraServer則將64顆Trainium2芯片互連,可提供相比當前EC2 AI服務器多達5倍的算力和10倍的內存,將FP8峰值算力擴展到83.2PFLOPS(單個實例的4倍)。

AWS已與Adobe、AI軟件開發平臺Poolside、數據分析平臺Databricks、高通等幾個早期客戶進行了Beta測試培訓。

3、與Anthropic擴大合作,要建全球最大AI計算集羣

美國AI大模型獨角獸Anthropic的聯合創始人兼CTO Tom Brown現場分享說,就像俄羅斯方塊遊戲,機器內部構造越緊密,跑模型就越便宜越快。一年多來,Anthropic性能工程團隊與亞馬遜和Annapurna團隊密切合作,應對這一挑戰。

他宣佈AWS與Anthropic正合作構建一個名爲Project Rainier的Trn2 UltraServers EC2 UltraCluster,它將在數十萬顆Trainium2芯片上擴展分佈式模型訓練。

這些芯片與第三代低延遲PB級EFA網絡互連,是Anthropic用於訓練其當前一代領先AI模型的百億億次浮點運算數量的5倍多。

建成後,預計它將成爲迄今世界上最大的AI計算集羣,可供Anthropic構建和部署其未來模型。

使用Project Rainer後,用戶將能夠以更低價格、更快速度獲得更多智能、更聰明的Agent。

4、新一代AI網絡結構tnp10

爲Trainium2 UltraServer提供動力的是最新一代AI網絡結構tnp10。AWS在基於Trainium和NVIDIA芯片的集羣都使用了這個網絡。它能在10微秒延遲下爲數千臺服務器提供數十PB網絡容量,實現了AWS迄今擴展速度最快的網絡。

Tnp10網絡的大規模並行、緊密互聯和彈性的,可縮小到幾個機架,也可以將其擴展到跨越多個物理數據中心園區的集羣。

AI網絡中的最大故障來源是光鏈路。多年來,AWS一直在設計和運行自家定製光學系統,以持續降低故障率。爲了進一步優化網絡,AWS在tnp10網絡中建立了一個全新的網絡路由協議“可擴展意圖驅動路由(CIDR)”,通過分散的速度和彈性提供了集中的計劃、控制和優化。

三、生成式AI平臺Bedrock服務三大更新:自動推理檢查、多Agent協同、模型蒸餾

AWS Bedrock服務可幫助企業構建和擴展生成式AI應用程序,今天公佈關於自動推理檢查、多agent協作、模型蒸餾的新功能。

AWS將Bedrock標榜爲“構建生成式AI應用的最簡單方式”。據加曼透露,每天都有成千上萬的客戶將Bedrock用於生產應用程序,這幾乎是去年一年增長率的5倍。

1、自動推理檢查,可預防AI幻覺

AI幻覺是妨礙AI應用進入企業實際生產的關鍵。AWS在探索過程中發現,自動推理可以被應用於解決這個問題。自動推理通常用於證明系統是否按指定方式工作。這個工具可以自動檢查方案和軟件,驗證在遇到意外事件時如何正確響應等。

基於此,AWS推出了AWS Automated Reasoning checks,可驗證事實響應的準確性、生成可審計的輸出,並向客戶展示模型得出結果的確切原因。

同時,Amazon Bedrock會自動制定必要的規則,引導客戶對其進行迭代測試,以確保模型調整到正確的響應。

2、多Agent協作,1小時完成此前1周任務

Bedrock的新功能還有幫助企業輕鬆構建、部署、編排agent團隊,使其寫作解決複雜多步驟任務。

使用Amazon Bedrockmulti-agent collaboration,企業可通過爲項目的特定步驟創建和分配專門Agent來獲得更準確的結果,並通過協調多個並行工作的Agent來加速任務。

比如企業可以在Bedrock上構建自己的專業Agent,然後創建主管Agent或協調Agent來幫助管理其他Agent。

AWS的客戶稱,這種多Agent協作使其此前需要大約1周時間的相同任務,現在可以在1小時內完成。

3、模型蒸餾,速度最高提升500%

當下每週都有新版本的模型發佈,企業需要基於自己的實際需求找到更適合的模型,需要適當的專業知識、適當延遲、適當成本以完成任務。

企業目前解決的方案之一是模型蒸餾,將性能強大的基礎模型中的數據和答案拿出來訓練更小的模型,這需要企業對訓練數據進行管理,並同時考慮到模型參數和權重的問題。

藉助Amazon Bedrock Model Distillation,客戶只需針對給定用例選擇最佳模型,並從同一模型系列中選擇較小的模型,即可以合適的成本提供其應用程序所需的延遲。

與原始模型相比,蒸餾模型速度最高可提高500%,運行成本降低75%,對於檢索增強生成(RAG)等用例,準確度損失不到2%。

四、Amazon Q Developer超越代碼,覆蓋更廣泛開發任務

Amazon Q Developer輔助編程平臺此次升級的重點是超越代碼完成,幫助開發人員完成端到端軟件生命週期中涉及的更廣泛日常任務。

Amazon Q Developer的新功能主要包括:

Q Developer現可自動生成單元測試,並幫助開發人員編寫和維護代碼文檔。它可以生成第一個代碼審查,供開發人員提交代碼時使用。一旦代碼投入生產,Q的新運營Agent就自動從公司的監控服務AWS CloudWatch中提取數據,並在警報響起時立即開始調查。

AWS還推出了一款用於現代化COBOL大型機應用程序的Agent。

此外,開發人員和安全平臺GitLab和AWS宣佈已聯手將GitLab的Duo AI助手與亞馬遜的Q自主Agent結合起來。GitLab用戶可用Duo的聊天功能訪問Amazon Q Developer中提供的許多Agent,以幫助進行代碼審查、生成單元測試和現代化他們的Java應用程序,該功能現在已直接集成到GitLab聊天UI中。

五、與英偉達合作14年,明年初發布Blackwell架構P6實例

AWS將核心服務通過構建block提供,企業可以更容易將這些服務進行組合,並建立真正有趣的應用。這個構建Block的概念一直是AWS構建服務、支持客戶運行的基礎,目前其已經提供了大量服務模塊。

例如,在生物領域,AWS開發了ESM模型系列,幫助全球科學家理解和設計蛋白質。ESM3已經被訓練了1萬億兆兆次,計算了超20億個蛋白質序列,這意味着科學家可以像設計芯片一樣設計蛋白質,朝着生物可編程邁出一步。

加曼談到企業選擇AWS的一個重要原因就是安全。重視安全是AWS開展業務的基礎,這關係到其如何設計數據中心、芯片、虛擬化堆棧以及服務體系結構。

在這之上,截至目前,AWS提供了比任何供應商都更多的計算資源。亞馬遜EC2擁有更多選項、實例和功能,可以讓企業找到適合其工作負載的應用程序的對應性能。

例如,企業正在運行一個用於分析工作流的大型數據庫,AWS可以在任何地方運行最大的存儲系統;如果企業正在運行一個HPC集羣、大模型以及所有集羣,並需要快速的網絡將這些東西進行連接,而AWS擁有訂購速度最快的熟練網絡。

AWS自研芯片爲其提供了更大的靈活性,當其單獨移動Nitro系統中的虛擬化設計時,可以無需重做虛擬化堆棧。基於新的實例類型,快速、簡單的進行開發。

AWS的Graviton系列處理器目前已經被幾乎所有的AWS客戶廣泛使用,其性價比提高了40%。Graviton可以處理更廣泛的工作負載,包括標量代碼、數據庫等。

目前,絕大多數的模型運行在英偉達的GPU之上,AWS和英偉達合作已經14年,加曼宣佈其合作升級,發佈P6實例。P6系列將採用新Blackwell芯片,明年初發布,P6實例將提供最多2個,計算速度比當前一代GPU快5倍。

六、Amazon S3存儲功能擴展,更快數據湖分析、自動元數據生成

AWS致力於推出簡單可擴展的存儲方式。它在2006年推出的Amazon S3從根本上改變管理數據的想法,這一服務過去十幾年來爆炸式增長。Amazon S3 Intelligent-Tiering智能分層已爲客戶節省40億美元。

在此基礎上,AWS推出Amazon S3 Tables功能,使S3成爲首個完全託管支持Apache Iceberg的雲對象存儲,可實現更快分析,並以最簡單的方式存儲和管理任何規模的表(Table)數據。

許多客戶將用於分析的數據組織爲表數據,通常存儲在Apache Parquet中。Parquet已是S3中增長最快的數據類型之一,Iceberg已成爲管理Parquet文件的最流行的開放表格式(OTF)。

AWS將S3 Tables稱作“對S3中的Apache Iceberg表執行分析的最簡單快捷的方法”。它專爲管理數據湖的Apache Iceberg表而構建,是第一個具有內置Apache Iceberg表支持的雲對象存儲並引入了一種新的存儲桶類型,來優化以Iceberg表形式存儲和查詢表數據。

與通用S3存儲桶相比,S3 Tables可提供3倍的查詢性能、10倍的每秒事務數(TPS),並會自動管理表維護任務。

AWS還推出了Amazon S3 Metadata,可以近乎實時地自動生成可查詢的目標元數據(metadata),並使其可通過新S3 Tables進行查詢,讓發現和管理S3中的海量數據變得更簡單快捷。

S3 Tables(正式發佈)、S3 Metadata(預覽版)現已推出,與Apache Iceberg表兼容,支持用AWS分析服務和開源工具輕鬆查詢數據。

七、兩大數據庫上新:能跨區域運行,具備強一致性

AWS今日宣佈推出Amazon Aurora DSQL和Amazon DynamoDB global tables新功能,以支持一些工作負載對跨區域運行、強一致性、低延遲、高可用性的嚴苛需求,兩個數據庫的跨區域強一致性功能現已推出預覽版。

今年是Amazon Aurora發佈的十週年。它是迄今發展最快的AWS服務。每天有數十萬客戶依賴的Amazon Aurora,提供了企業級商用數據庫的性能以及開源的靈活性和經濟性。

如今AWS再次重新構想關係數據庫,讓客戶無需在低延遲或SQL之間做選擇。

Amazon Aurora DSQL是一種新型無服務器分佈式SQL數據庫,既可以提供高端商用數據庫的所有性能和功能,又具有開源數據庫的靈活性和成本效益。

與其他流行的分佈式SQL數據庫相比,Aurora DSQL的讀寫速度快至4倍,多區域可用性高達99.999%,可擴展性幾乎無限,而且無需管理基礎設施,無需配置、修補或管理數據庫實例。

Aurora DSQL克服了分佈式數據庫的兩個歷史挑戰——實現多區域低延遲強一致性,以及在全球範圍內以微秒級精度同步服務器。

該數據庫通過將事務處理與存儲分離來克服當前方法的侷限性,僅在提交時檢查每個事務,並在提交時並行化所有區域的所有寫入,以提供具有強一致性和快速寫入的多區域數據庫,且所有更新和安全修補都無需停機,也不會對性能產生任何影響。

爲了確保每個區域都能按照發生的確切順序看到每個數據庫操作,Aurora DSQL使用了Amazon Time Sync Service,該服務在每個 Amazon EC2實例上添加了硬件參考時鐘,將它們同步到與衛星連接的原子鐘,以提供世界任何地方的微秒級精確時間。

Amazon DynamoDB第一個完全託管的無服務器NoSQL數據庫,通過重新定義性能和簡化操作,在任何規模下都無需基礎設施管理,並且始終保持個位數毫秒級的性能。

該數據庫現支持多區域強一致性,確保客戶的多區域應用程序始終讀取最新數據,而無需更改任何應用程序代碼。

八、面向高密度AI工作負載,推出全新靈活數據中心組件

AWS宣佈推出全新數據中心組件(電源、冷卻、硬件設計),旨在支持高密度AI工作負載。

(1)簡化電氣和機械設計:使基礎設施可用性達到99.9999%,還將可能受電氣問題影響的機架數量減少了89%。

(2)冷卻、機架設計和控制系統的創新:開發全新可配置液冷解決方案,通過優化數據中心機架的定位方式來最大限度利用電力,更新了標準化監控、報警和操作順序的控制系統。

(3)提高能源效率和可持續性:與之前的設計相比,預計在峰值冷卻條件下機械能消耗可降低多達46%;與行業平均水平相比,數據中心建築外殼混凝土中的隱含碳減少35%;備用發電機將能夠使用可生物降解且無毒的可再生柴油燃料。

結語:一場大型科技創新秀場

歷屆AWS re:Invent大會,都是計算、安全、存儲系統和AI基礎設施等的大型創新秀場。

從2003年秋天啓程開始,AWS不斷降低雲服務的門檻,將大公司級成本結構和規模的基礎設施變成人人隨處可得,讓大中小型企業團隊不必在計算、存儲、數據庫、分析等方面重複造輪子。

在全棧創新的深度和產品組合的廣度,使得這家雲大廠能夠持續鞏固高性能、節能、安全、合規、擴展性等方面的可信賴度,並跟上快速變化的AI需求,有足夠的經驗和能力來幫助客戶更好地專注於自身業務和適應創新。