AI+Web3:數據、算力與模型的去中心化革命

AI+Web3:塔樓與廣場

TL;DR

  1. AI概念的Web3項目在一二級市場成爲吸金標的。

  2. Web3在AI行業的機會體現在:利用分布式激勵協調長尾中的潛在供應(跨數據、存儲和計算),同時建立開源模型和AI Agent的去中心化市場。

  3. AI在Web3行業主要用於鏈上金融(加密支付、交易、數據分析)以及輔助開發。

  4. AI+Web3的效用體現在兩者的互補:Web3有望對抗AI集中化,AI有望幫助Web3破圈。

AI+Web3:塔樓與廣場

引言

近兩年,AI的發展如同按下加速鍵,由Chatgpt掀起的浪潮不僅開啓了生成式人工智能的新紀元,也在Web3領域掀起了巨浪。

在AI概念加持下,相較放緩的加密市場融資提振明顯。據統計,僅2024年上半年就有64個Web3+AI項目完成融資,其中基於人工智能的操作系統Zyber365在A輪融資1億美元,創下最高紀錄。

二級市場更爲繁榮,加密聚合網站Coingecko數據顯示,短短一年多時間AI賽道總市值已達485億美元,24小時交易量接近86億美元;主流AI技術進展帶來的利好明顯,OpenAI的Sora文本轉視頻模型發布後,AI板塊平均價格漲151%;AI效應同樣輻射至加密貨幣吸金板塊之一Meme:首個AI Agent概念的MemeCoin——GOAT迅速走紅並獲得14億美金估值,成功掀起AI Meme熱潮。

關於AI+Web3的研究和話題同樣火熱,從AI+Depin到AI Memecoin再到當前的AI Agent和AI DAO,FOMO情緒已然跟不上新敘事輪換速度。

AI+Web3這個充滿熱錢、風口和未來幻想的術語組合,難免被視作一場資本撮合的包辦婚姻,我們很難分辨在這華麗外衣之下,到底是投機者的主場,還是黎明爆發的前夜?

要回答這個問題,一個對雙方都關鍵的思考是,有對方它會變得更好嗎?是否能從對方的模式中受益?本文試圖站在前人肩膀上審視這一格局:Web3如何能在AI技術堆棧各環節發揮作用,AI又能給Web3帶來什麼新生機?

AI堆棧下Web3有何機會?

在展開這個話題前,我們需要了解AI大模型的技術堆棧:

大模型就像人類大腦,初期像剛出生的嬰兒,需要觀察和吸收海量外界信息來理解世界,這是數據"收集"階段;由於計算機不具備人類多感官,在訓練前需要通過"預處理"將無標注信息轉化爲計算機可理解的格式。

輸入數據後AI通過"訓練"構建具理解和預測能力的模型,類似嬰兒逐漸理解和學習外界的過程,模型參數如同嬰兒不斷調整的語言能力。學習內容分科或與人交流獲得反饋並修正時,進入"微調"階段。

當孩童長大會說話後,能在新對話中理解意思並表達想法,類似AI大模型的"推理",可對新語言文本輸入進行預測分析。嬰兒通過語言表達感受、描述物體和解決問題,類似AI大模型完成訓練後在推理階段應用於各類特定任務,如圖像分類、語音識別等。

AI Agent則更接近大模型下一形態——能獨立執行任務並追求復雜目標,不僅具備思考能力,還能記憶、規劃,且能運用工具與世界互動。

目前,針對AI各堆棧痛點,Web3初步形成了一個多層次、相互連接的生態系統,涵蓋AI模型流程各階段。

AI+Web3:塔樓與廣場

基礎層:算力與數據的Airbnb

算力

當前,AI最高成本之一是訓練和推理模型所需的算力與能源。

例如,Meta的LLAMA3需要16000個NVIDIA H100GPU 30天才能完成訓練。H100 80GB版單價3-4萬美元,這需要4-7億美元的計算硬件投資(GPU+網路芯片),每月訓練消耗16億千瓦時,能源支出近2000萬美元。

對AI算力的解壓,也是Web3最早與AI交叉的領域——DePin(去中心化物理基礎設施網路)。目前,DePin Ninja數據網站已列出1400多個項目,其中GPU算力共享代表項目包括io.net、Aethir、Akash、Render Network等。

主要邏輯是:平台允許閒置GPU資源擁有者以無需許可的去中心化方式貢獻計算能力,通過類似Uber或Airbnb的買賣雙方在線市場,提高未充分利用的GPU資源使用率,終端用戶獲得更低成本的高效計算資源;同時,質押機制確保資源提供者違反質量控制機制或中斷網路時受到懲罰。

特點包括:

  • 聚集閒置GPU資源:供應方主要爲第三方獨立中小型數據中心、加密礦場等運營商過剩算力資源、共識機制爲PoS的挖礦硬件,如FileCoin與ETH礦機。部分項目致力於降低啓動門檻,如exolab利用MacBook、iPhone、iPad等本地設備建立運行大模型推理的算力網路。

  • 面向AI算力長尾市場: a. 技術端:去中心化算力市場更適合推理步驟。訓練更依賴超大集羣規模GPU的數據處理能力,而推理對GPU運算性能要求相對較低,如Aethir專注低延遲渲染工作和AI推理應用。 b. 需求端:中小算力需求方不會單獨訓練自己的大模型,而是選擇圍繞少數頭部大模型進行優化、微調,這些場景天然適合分布式閒置算力資源。

  • 去中心化所有權:區塊鏈技術意義在於資源所有者始終保留對資源的控制權,可根據需求靈活調整並獲得收益。

數據

數據是AI的地基。沒有數據,計算就如浮萍之末毫無用處,而數據與模型關係如"Garbage in, Garbage out"諺語,數據數量與輸入質量決定最終模型輸出質量。對現AI模型訓練而言,數據決定了模型的語言能力、理解能力、甚至價值觀及人性化表現。目前,AI的數據需求困境主要體現在:

  • 數據飢渴:AI模型訓練依賴海量數據輸入。據悉,OpenAI訓練GPT-4的參數量達到萬億級別。

  • 數據質量:隨着AI與各行業結合,數據時效性、多樣性、垂類數據專業性、新興數據源如社交媒體情緒的攝入對其質量提出了新要求。

  • 隱私與合規問題:各國家、企業逐漸意識到優質數據集重要性,正在限制數據集爬取。

  • 數據處理成本高昂:數據量大,處理過程復雜。據悉,AI公司超30%研發成本用於基礎數據採集、處理。

目前,Web3的解決方案體現在:

  1. 數據收集:能免費提供的真實世界數據正迅速耗盡,AI公司爲數據付費支出逐年上升。但這份支出並未反哺真正的數據貢獻者,平台獨享數據帶來的價值創造,如Reddit通過與AI公司籤訂數據授權協議實現2.03億美元收入。

讓真正貢獻用戶參與數據價值創造,並通過分布式網路與激勵機制以低成本方式獲取用戶更私密、更有價值的數據,是Web3的願景。

  • Grass是去中心化數據層和網路,用戶可通過運行Grass節點,貢獻閒置帶寬和中繼流量捕獲整個互聯網實時數據,並獲取代幣獎勵。

  • Vana引入獨特的數據流動性池(DLP)概念,用戶可將私人數據(如購物記錄、瀏覽習慣、社交媒體活動等)上傳至特定DLP,並靈活選擇是否授權給特定第三方使用。

  • 在PublicAI中,用戶可在X上使用#AI或#Web3標籤並@PublicAI實現數據收集。

  1. 數據預處理:AI數據處理過程中,由於收集的數據通常嘈雜且包含錯誤,訓練模型前必須清理並轉換爲可用格式,涉及標準化、過濾和處理缺失值的重復任務。此階段是AI行業少數人工環節,衍生出數據標注師行業,隨着模型對數據質量要求提高,數據標注師門檻也隨之提升,這項任務天然適合Web3的去中心化激勵機制。
  • Grass與OpenLayer正考慮加入數據標注這一關鍵環節。

  • Synesis提出"Train2earn"概念,強調數據質量,用戶可通過提供標注數據、注釋或其他輸入獲得獎勵。

  • 數據標注項目Sapien將標記任務遊戲化,並讓用戶質押積分以賺取更多積分。

  1. 數據隱私與安全:需釐清數據隱私與安全是兩個不同概念。數據隱私涉及敏感數據處理,數據安全則保護數據信息免遭未授權訪問、破壞和盜竊。因此,Web3隱私技術優勢和潛在應用場景體現在:(1)敏感數據訓練;(2)數據協作:多個數據所有者可共同參與AI訓練,無需共享原始數據。

當前Web3較普遍的隱私技術包括:

  • 可信執行環境(TEE),如Super Protocol;

  • 完全同態加密(FHE),如BasedAI、Fhenix.io或Inco Network;

  • 零知識技術(zk),如Reclaim Protocol使用zkTLS技術,生成HTTPS流量零知識證明,允許用戶從外部網站安全導入活動、聲譽和身分數據,無需暴露敏感信息。

不過,該領域仍處早期階段,大部分項目仍在探索中,目前困境是計算成本太高,例如:

  • zkML框架EZKL需約80分鍾才能生成1M-nanoGPT模型的證明。

  • 據Modulus Labs數據,zkML開銷比純計算高出1000倍以上。

  1. 數據存儲:有了數據後,還需在鏈上存儲數據及用該數據生成的LLM。以數據可用性(DA)爲核心問題,在以太坊danksharding升級前,其吞吐量爲0.08MB。而AI模型訓練和實時推理通常需要每秒50-100GB數據吞吐量。這種數量級差距使現有鏈上解決方案在面對"資源密集型AI應用時"力不從心。
  • 0g.AI是這類代表項目。它是針對AI高性能需求設計的中心化存儲解決方案,關鍵特性包括:高性能與擴展性,通過高級分片(Sharding)和糾刪碼(Erasure Coding)技術,支持快速上傳和下載大規模數據集,數據傳輸速度接近每秒5GB。

中間件:模型的訓練與推理

開源模型去中心化市場

關於AI模型閉源還是開源的爭論從未停息。開源帶來的集體創新是閉源模型無法比擬的優勢,然而在無盈利模式前提下,開源模型如何提高開發者驅動力?是值得思考的方向,百度創始人李彥宏今年4月曾斷言,"開源模型會越來越落後。"

對此,Web3提出去中心化開源模型市場的可能性,即對模型本身進行代幣化,爲團隊保留一定比例代幣,並將該模型部分未來收入流向代幣持有者。

  • Bittensor協議建立開源模型的P2P市場,由數十個"子網"組成,資源提供者(計算、數據收集/存儲、機器學習人才)相互競爭,以滿足特定子網所有者目標,各子網可交互並相互學習,實現更強大智能。獎勵由社區投票分配,並根據競爭表現進一步分配在各子網中。

  • ORA引入初始模型發行(IMO)概念,將AI模型代幣化,可通過去中心化網路購買、出售和開發AI模型。

  • Sentient,一個去中

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 5
  • 轉發
  • 分享
留言
0/400
DAOplomacyvip
· 16小時前
又一个web3与ai的叙述……说实话,我以前看过这部电影
查看原文回復0
Ser Liquidatedvip
· 16小時前
又来画大饼了
回復0
反向指标先生vip
· 16小時前
又可以收米了嘛
回復0
Degen McSleeplessvip
· 16小時前
割一波ai是这个意思吧...
回復0
staking_grampsvip
· 16小時前
还在炒ai热度??无聊
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)