AI+Web3:数据、算力与模型的去中心化革命

AI+Web3:塔楼与广场

TL;DR

  1. AI概念的Web3项目在一二级市场成为吸金标的。

  2. Web3在AI行业的机会体现在:利用分布式激励协调长尾中的潜在供应(跨数据、存储和计算),同时建立开源模型和AI Agent的去中心化市场。

  3. AI在Web3行业主要用于链上金融(加密支付、交易、数据分析)以及辅助开发。

  4. AI+Web3的效用体现在两者的互补:Web3有望对抗AI集中化,AI有望帮助Web3破圈。

AI+Web3:塔楼与广场

引言

近两年,AI的发展如同按下加速键,由Chatgpt掀起的浪潮不仅开启了生成式人工智能的新纪元,也在Web3领域掀起了巨浪。

在AI概念加持下,相较放缓的加密市场融资提振明显。据统计,仅2024年上半年就有64个Web3+AI项目完成融资,其中基于人工智能的操作系统Zyber365在A轮融资1亿美元,创下最高纪录。

二级市场更为繁荣,加密聚合网站Coingecko数据显示,短短一年多时间AI赛道总市值已达485亿美元,24小时交易量接近86亿美元;主流AI技术进展带来的利好明显,OpenAI的Sora文本转视频模型发布后,AI板块平均价格上涨151%;AI效应同样辐射至加密货币吸金板块之一Meme:首个AI Agent概念的MemeCoin——GOAT迅速走红并获得14亿美金估值,成功掀起AI Meme热潮。

关于AI+Web3的研究和话题同样火热,从AI+Depin到AI Memecoin再到当前的AI Agent和AI DAO,FOMO情绪已然跟不上新叙事轮换速度。

AI+Web3这个充满热钱、风口和未来幻想的术语组合,难免被视作一场资本撮合的包办婚姻,我们很难分辨在这华丽外衣之下,到底是投机者的主场,还是黎明爆发的前夜?

要回答这个问题,一个对双方都关键的思考是,有对方它会变得更好吗?是否能从对方的模式中受益?本文试图站在前人肩膀上审视这一格局:Web3如何能在AI技术堆栈各环节发挥作用,AI又能给Web3带来什么新生机?

AI堆栈下Web3有何机会?

在展开这个话题前,我们需要了解AI大模型的技术堆栈:

大模型就像人类大脑,初期像刚出生的婴儿,需要观察和吸收海量外界信息来理解世界,这是数据"收集"阶段;由于计算机不具备人类多感官,在训练前需要通过"预处理"将无标注信息转化为计算机可理解的格式。

输入数据后AI通过"训练"构建具理解和预测能力的模型,类似婴儿逐渐理解和学习外界的过程,模型参数如同婴儿不断调整的语言能力。学习内容分科或与人交流获得反馈并修正时,进入"微调"阶段。

当孩童长大会说话后,能在新对话中理解意思并表达想法,类似AI大模型的"推理",可对新语言文本输入进行预测分析。婴儿通过语言表达感受、描述物体和解决问题,类似AI大模型完成训练后在推理阶段应用于各类特定任务,如图像分类、语音识别等。

AI Agent则更接近大模型下一形态——能独立执行任务并追求复杂目标,不仅具备思考能力,还能记忆、规划,且能运用工具与世界互动。

目前,针对AI各堆栈痛点,Web3初步形成了一个多层次、相互连接的生态系统,涵盖AI模型流程各阶段。

AI+Web3:塔楼与广场

基础层:算力与数据的Airbnb

算力

当前,AI最高成本之一是训练和推理模型所需的算力与能源。

例如,Meta的LLAMA3需要16000个NVIDIA H100GPU 30天才能完成训练。H100 80GB版单价3-4万美元,这需要4-7亿美元的计算硬件投资(GPU+网络芯片),每月训练消耗16亿千瓦时,能源支出近2000万美元。

对AI算力的解压,也是Web3最早与AI交叉的领域——DePin(去中心化物理基础设施网络)。目前,DePin Ninja数据网站已列出1400多个项目,其中GPU算力共享代表项目包括io.net、Aethir、Akash、Render Network等。

主要逻辑是:平台允许闲置GPU资源拥有者以无需许可的去中心化方式贡献计算能力,通过类似Uber或Airbnb的买卖双方在线市场,提高未充分利用的GPU资源使用率,终端用户获得更低成本的高效计算资源;同时,质押机制确保资源提供者违反质量控制机制或中断网络时受到惩罚。

特点包括:

  • 聚集闲置GPU资源:供应方主要为第三方独立中小型数据中心、加密矿场等运营商过剩算力资源、共识机制为PoS的挖矿硬件,如FileCoin与ETH矿机。部分项目致力于降低启动门槛,如exolab利用MacBook、iPhone、iPad等本地设备建立运行大模型推理的算力网络。

  • 面向AI算力长尾市场: a. 技术端:去中心化算力市场更适合推理步骤。训练更依赖超大集群规模GPU的数据处理能力,而推理对GPU运算性能要求相对较低,如Aethir专注低延迟渲染工作和AI推理应用。 b. 需求端:中小算力需求方不会单独训练自己的大模型,而是选择围绕少数头部大模型进行优化、微调,这些场景天然适合分布式闲置算力资源。

  • 去中心化所有权:区块链技术意义在于资源所有者始终保留对资源的控制权,可根据需求灵活调整并获得收益。

数据

数据是AI的地基。没有数据,计算就如浮萍之末毫无用处,而数据与模型关系如"Garbage in, Garbage out"谚语,数据数量与输入质量决定最终模型输出质量。对现AI模型训练而言,数据决定了模型的语言能力、理解能力、甚至价值观及人性化表现。目前,AI的数据需求困境主要体现在:

  • 数据饥渴:AI模型训练依赖海量数据输入。据悉,OpenAI训练GPT-4的参数量达到万亿级别。

  • 数据质量:随着AI与各行业结合,数据时效性、多样性、垂类数据专业性、新兴数据源如社交媒体情绪的摄入对其质量提出了新要求。

  • 隐私与合规问题:各国家、企业逐渐意识到优质数据集重要性,正在限制数据集爬取。

  • 数据处理成本高昂:数据量大,处理过程复杂。据悉,AI公司超30%研发成本用于基础数据采集、处理。

目前,Web3的解决方案体现在:

  1. 数据收集:能免费提供的真实世界数据正迅速耗尽,AI公司为数据付费支出逐年上升。但这份支出并未反哺真正的数据贡献者,平台独享数据带来的价值创造,如Reddit通过与AI公司签订数据授权协议实现2.03亿美元收入。

让真正贡献用户参与数据价值创造,并通过分布式网络与激励机制以低成本方式获取用户更私密、更有价值的数据,是Web3的愿景。

  • Grass是去中心化数据层和网络,用户可通过运行Grass节点,贡献闲置带宽和中继流量捕获整个互联网实时数据,并获取代币奖励。

  • Vana引入独特的数据流动性池(DLP)概念,用户可将私人数据(如购物记录、浏览习惯、社交媒体活动等)上传至特定DLP,并灵活选择是否授权给特定第三方使用。

  • 在PublicAI中,用户可在X上使用#AI或#Web3标签并@PublicAI实现数据收集。

  1. 数据预处理:AI数据处理过程中,由于收集的数据通常嘈杂且包含错误,训练模型前必须清理并转换为可用格式,涉及标准化、过滤和处理缺失值的重复任务。此阶段是AI行业少数人工环节,衍生出数据标注师行业,随着模型对数据质量要求提高,数据标注师门槛也随之提升,这项任务天然适合Web3的去中心化激励机制。
  • Grass与OpenLayer正考虑加入数据标注这一关键环节。

  • Synesis提出"Train2earn"概念,强调数据质量,用户可通过提供标注数据、注释或其他输入获得奖励。

  • 数据标注项目Sapien将标记任务游戏化,并让用户质押积分以赚取更多积分。

  1. 数据隐私与安全:需厘清数据隐私与安全是两个不同概念。数据隐私涉及敏感数据处理,数据安全则保护数据信息免遭未授权访问、破坏和盗窃。因此,Web3隐私技术优势和潜在应用场景体现在:(1)敏感数据训练;(2)数据协作:多个数据所有者可共同参与AI训练,无需共享原始数据。

当前Web3较普遍的隐私技术包括:

  • 可信执行环境(TEE),如Super Protocol;

  • 完全同态加密(FHE),如BasedAI、Fhenix.io或Inco Network;

  • 零知识技术(zk),如Reclaim Protocol使用zkTLS技术,生成HTTPS流量零知识证明,允许用户从外部网站安全导入活动、声誉和身份数据,无需暴露敏感信息。

不过,该领域仍处早期阶段,大部分项目仍在探索中,目前困境是计算成本太高,例如:

  • zkML框架EZKL需约80分钟才能生成1M-nanoGPT模型的证明。

  • 据Modulus Labs数据,zkML开销比纯计算高出1000倍以上。

  1. 数据存储:有了数据后,还需在链上存储数据及用该数据生成的LLM。以数据可用性(DA)为核心问题,在以太坊Danksharding升级前,其吞吐量为0.08MB。而AI模型训练和实时推理通常需要每秒50-100GB数据吞吐量。这种数量级差距使现有链上解决方案在面对"资源密集型AI应用时"力不从心。
  • 0g.AI是这类代表项目。它是针对AI高性能需求设计的中心化存储解决方案,关键特性包括:高性能与扩展性,通过高级分片(Sharding)和纠删码(Erasure Coding)技术,支持快速上传和下载大规模数据集,数据传输速度接近每秒5GB。

中间件:模型的训练与推理

开源模型去中心化市场

关于AI模型闭源还是开源的争论从未停息。开源带来的集体创新是闭源模型无法比拟的优势,然而在无盈利模式前提下,开源模型如何提高开发者驱动力?是值得思考的方向,百度创始人李彦宏今年4月曾断言,"开源模型会越来越落后。"

对此,Web3提出去中心化开源模型市场的可能性,即对模型本身进行代币化,为团队保留一定比例代币,并将该模型部分未来收入流向代币持有者。

  • Bittensor协议建立开源模型的P2P市场,由数十个"子网"组成,资源提供者(计算、数据收集/存储、机器学习人才)相互竞争,以满足特定子网所有者目标,各子网可交互并相互学习,实现更强大智能。奖励由社区投票分配,并根据竞争表现进一步分配在各子网中。

  • ORA引入初始模型发行(IMO)概念,将AI模型代币化,可通过去中心化网络购买、出售和开发AI模型。

  • Sentient,一个去中

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 转发
  • 分享
评论
0/400
DAOplomacyvip
· 11小时前
又一个web3与ai的叙述……说实话,我以前看过这部电影
查看原文回复0
Ser Liquidatedvip
· 11小时前
又来画大饼了
回复0
反向指标先生vip
· 11小时前
又可以收米了嘛
回复0
Degen McSleeplessvip
· 11小时前
割一波ai是这个意思吧...
回复0
staking_grampsvip
· 11小时前
还在炒ai热度??无聊
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)