📢 #Gate观点任务# 第一期精彩啓程!調研 Palio (PAL) 項目,在Gate廣場發布您的看法觀點,瓜分 $300 PAL!
💰️ 選取15名優質發帖用戶,每人輕鬆贏取 $20 PAL!
👉 參與方式:
1. 調研$PAL項目,發表你對項目的見解。
2. 帶上$PAL交易連結。
3. 推廣$PAL生態周系列活動:
爲慶祝PAL上線Gate交易,平台特推出HODLer Airdrop、CandyDrop、VIP Airdrop、Alpha及餘幣寶等多項PAL專屬活動,回饋廣大用戶。請在帖文中積極宣傳本次系列活動,詳情:https://www.gate.com/announcements/article/45976
建議項目調研的主題:
🔹 Palio 是什麼?
🔹 $PAL 代幣經濟模型如何運作?
🔹 如何參與 $PAL生態周系列活動?
您可以選擇以上一個或多個方向發表看法,也可以跳出框架,分享主題以外的獨到見解。
注意:帖子不得包含除 #Gate观点任务# 和 #PAL# 之外的其他標籤,並確保你的帖子至少有 60 字,並獲得至少 3 個點讚,否則將無法獲得獎勵。
⚠️ 重復內容的帖子將不會被選取,請分享屬於你獨特的觀點。
⏰ 活動時間:截止至 2025年7月11日 24:00(UTC+8)
AI與加密行業的融合:深度學習如何重塑Web3格局
AI x Crypto:從零到巔峯
引言
人工智能行業近期的發展被一些人視爲第四次工業革命。大模型的出現顯著提升了各行各業的效率,據估計爲美國提升了約20%的工作效率。同時大模型帶來的泛化能力被認爲是新的軟件設計範式,從過去精確的代碼轉向更泛化的大模型框架嵌入軟件中,能夠支持更廣泛的模態輸入與輸出。深度學習技術爲AI行業帶來了第四次繁榮,這股風潮也影響到了加密貨幣行業。
本報告將詳細探討AI行業的發展歷史、技術分類以及深度學習技術對行業的影響。深入剖析深度學習中GPU、雲計算、數據源、邊緣設備等產業鏈上下遊的發展現狀與趨勢。並從本質上探討加密貨幣與AI行業的關係,梳理加密貨幣相關的AI產業鏈格局。
AI行業的發展歷史
AI行業從20世紀50年代起步,爲實現人工智能的願景,學術界和工業界在不同時代不同學科背景下發展出了多種實現人工智能的流派。
現代人工智能技術主要使用"機器學習"這一術語,其理念是讓機器依靠數據在任務中反復迭代以改善系統性能。主要步驟是將數據送到算法中訓練模型,測試部署模型,使用模型完成自動化的預測任務。
目前機器學習有三大主要流派,分別是聯結主義、符號主義和行爲主義,分別模仿人類的神經系統、思維、行爲。當前以神經網路爲代表的聯結主義佔據上風(也稱爲深度學習),主要原因是這種架構有一個輸入層一個輸出層,但有多個隱藏層,一旦層數以及神經元(參數)的數量足夠多,就有足夠的機會擬合復雜的通用型任務。通過數據輸入,可以不斷調整神經元的參數,經歷多次數據後該神經元就會達到最佳狀態(參數),這也是其"深度"的由來——足夠多的層數和神經元。
基於神經網路的深度學習技術也有多個技術迭代與演進,從最早期的神經網路,到前饋神經網路、RNN、CNN、GAN,最後演進到現代大模型如GPT等使用的Transformer技術。Transformer技術只是神經網路的一個演進方向,多加了一個轉換器,用於把所有模態(如音頻,視頻,圖片等)的數據編碼成對應的數值來表示。然後再輸入到神經網路中,這樣神經網路就能擬合任何類型的數據,也就是實現多模態。
AI發展經歷了三次技術浪潮: 第一次浪潮是20世紀60年代,是AI技術提出的十年後,這次浪潮是符號主義技術發展引起的,該技術解決了通用的自然語言處理以及人機對話的問題。同時期,專家系統誕生。
第二次AI技術浪潮發生在1997年,IBM深藍"Blue"以3.5:2.5戰勝了國際象棋冠軍卡斯帕羅夫(Kasparov),這場勝利被視爲人工智能的一個裏程碑。
第三次AI技術浪潮發生在2006年。深度學習三巨頭Yann LeCun、Geoffrey Hinton以及Yoshua Bengio提出了深度學習的概念,一種以人工神經網路爲架構,對資料進行表徵學習的算法。之後深度學習的算法逐漸演進,從RNN、GAN到Transformer以及Stable Diffusion,這些算法共同塑造了這第三次技術浪潮,也是聯結主義的鼎盛時期。
深度學習產業鏈
當前大模型語言使用的都是基於神經網路的深度學習方法。以GPT爲首的大模型造就了一波人工智能的熱潮,大量的玩家湧入這個賽道,市場對於數據、算力的需求大量迸發。本部分主要探索深度學習算法的產業鏈,其上下遊組成,以及上下遊的現狀與供需關係、未來發展。
基於Transformer技術的GPT爲首的LLMs(大模型)訓練分爲三個步驟:
第一步,預訓練。通過給輸入層足夠多的數據對來尋找該模型下各個神經元最佳的參數,這個過程需要大量的數據,也是最耗費算力的過程。
第二步,微調。給予一批量較少但質量非常高的數據來訓練,以提升模型的輸出質量。
第三步,強化學習。建立一個"獎勵模型"來判定大模型的輸出是否高質量,用來自動迭代大模型的參數。
簡而言之,在大模型的訓練過程中,預訓練對數據的量要求非常高,所需耗費的GPU算力也最多;微調需要更高質量的數據來改進參數;強化學習可以通過獎勵模型來反復迭代參數以輸出更高質量的結果。
影響大模型表現主要由三個方面決定:參數數量、數據量與質量、算力。這三個共同影響了大模型的結果質量和泛化能力。假設參數數量爲p,數據量爲n(以Token數量計算),那麼通過經驗法則可以計算所需的計算量,從而預估需要購買的算力情況以及訓練時間。
算力一般以Flops爲基本單位,代表一次浮點運算。根據經驗法則,預訓練一次大模型大概需要6np Flops。推理(輸入數據等待大模型輸出的過程)大約需要2np Flops。
早期使用CPU芯片進行訓練提供算力支持,後來逐漸使用GPU替代,如Nvidia的A100、H100芯片等。因爲GPU可以作爲專用計算,在能耗效率上遠優於CPU。GPU運行浮點運算主要通過Tensor Core模塊進行。芯片的FP16/FP32精度下的Flops數據代表其主要計算能力,是芯片的主要衡量指標之一。
假設大模型參數以GPT3爲例,有1750億個參數,1800億個Token的數據量(約570GB),那麼進行一次預訓練需要6np的Flops,約爲3.1510^22 Flops。以TFLOPS(Trillion FLOPs)爲單位約爲3.1510^10 TFLOPS,也就是說一張SXM型號的芯片預訓練一次GPT3約需要584天。
由此可見預訓練的龐大計算量需要多張最先進芯片共同計算才能實現。GPT4的參數量又是GPT3的十倍,意味着即使數據量不變,芯片數量也要多購買十倍。GPT-4的Token數量爲13萬億個,又是GPT-3的十倍,最終GPT-4可能需要超過100倍的芯片算力。
在大模型訓練中,數據存儲也有問題。GPU的內存空間一般較小(如A100爲80GB),無法容納全部數據,因此需要考察芯片的帶寬,即從硬盤到內存的數據傳輸速度。同時由於使用多個GPU芯片,還涉及GPU之間的傳輸速率。所以在很多時候,制約模型訓練實踐的因素或成本,不一定是芯片的計算能力,更多時候可能是芯片的帶寬。因爲數據傳輸很慢,會導致運行模型的時間拉長,電力成本就會提高。
深度學習產業鏈主要包括以下幾個部分:
硬件GPU提供商
目前Nvidia在AI GPU芯片領域處於絕對領先地位。學術界主要使用消費級別的GPU(RTX系列);工業界主要使用H100、A100等用於大模型的商業化落地。
2023年,Nvidia最先進的H100芯片一經發布就獲得了多家公司的認購。全球對H100芯片的需求遠遠大於供給,其出貨週期已達到52周之久。鑑於Nvidia的壟斷情況,Google牽頭,英特爾、高通、微軟、亞馬遜共同成立了CUDA聯盟,希望共同研發GPU以擺脫Nvidia的影響力。
對於超大型科技公司/雲服務提供商/國家級實驗室來說,他們動輒購買上千、上萬片H100芯片組建HPC(高性能計算中心)。截至2023年底,H100芯片的訂購量就超過了50萬片。
在Nvidia的芯片供給方面,目前H200的消息已經發出,預計H200的性能是H100性能的兩倍,而B100將在2024年底或2025年初推出。目前GPU的發展仍然滿足摩爾定律,性能每2年翻一倍,價格下降一半。
雲服務提供商
雲服務提供商在購買足夠的GPU組建HPC後,能夠爲資金有限的人工智能企業提供彈性的算力以及托管訓練解決方案。目前市場主要分爲三類雲算力提供商:
訓練數據源提供商
大模型訓練主要經歷預訓練、微調、強化學習三個步驟。預訓練需要大量數據,微調需要高質量數據,因此像Google這種搜索引擎和Reddit這種擁有優質對話數據的公司受到市場廣泛關注。
有些開發廠商爲了不與通用型大模型競爭,選擇在細分領域如金融、醫療、化學等開發,需要特定領域的數據。因此存在爲這些大模型提供特定數據的公司,也稱爲Data labeling company。
對於模型研發企業來說,大量數據、優質數據、特定數據是三種主要的數據訴求。
微軟的研究認爲,如果小語言模型的數據質量明顯優於大語言模型,其性能不一定會差。實際上GPT在原創力和數據上並沒有明顯優勢,主要是其對該方向的押注造就了成功。紅杉美國也認爲,GPT未來不一定保持競爭優勢,因爲這方面沒有太深的護城河,主要限制來源於算力獲取。
根據預測,按照當前模型規模增長情況,2030年所有的低質量和高質量數據都會耗盡。因此業內正在探索人工智能合成數據,以生成無限數據,那麼瓶頸就只剩下算力。這個方向仍在探索階段,值得關注。
數據庫提供商
對於AI數據和深度學習訓練推理任務,目前業內使用"矢量數據庫"。矢量數據庫旨在高效地存儲、管理和索引海量高維矢量數據。能夠將非結構化的數據統一以"向量"的形式存儲,適合這些向量的存儲和處理。
主要玩家有Chroma、Zilliz、Pinecone、Weaviate等。預計隨着數據量需求增加,以及各種細分領域的大模型和應用迸發,對Vector Database的需求將大幅增加。由於這一領域有很強的技術壁壘,投資時更多考慮偏向成熟和有客戶的企業。
邊緣設備
組建GPU HPC(高性能計算集羣)時,通常會消耗大量能量產生熱能,需要降溫設備保