AI+Web3:データ、コンピューティングパワーとモデルの分散化革命

AI+Web3: タワーとプラザ

TL; 博士

  1. AIコンセプトのWeb3プロジェクトが一級および二級市場で資金を集めるターゲットとなる。

  2. Web3におけるAI業界の機会は、分散型インセンティブを利用してロングテールにおける潜在的な供給(をデータ、ストレージ、計算)を横断して調整し、同時にオープンソースモデルとAIエージェントの分散型市場を構築することにあります。

  3. AIはWeb3業界で主にチェーン上の金融(暗号支払い、取引、データ分析)および開発支援に使用されます。

  4. AI+Web3の有用性は、両者の補完性に表れています: Web3はAIの集中化に対抗することが期待され、AIはWeb3の境界を超える手助けをすることが期待されています。

! AI+Web3: タワー&プラザ

はじめに

ここ2年、AIの発展はまるで加速ボタンを押したかのようで、ChatGPTによって引き起こされた波は、生成的人工知能の新しい時代を切り開いただけでなく、Web3領域にも大きな波を起こしました。

AIの概念によって、比較的鈍化している暗号市場において、資金調達の活気が明らかに見られます。統計によれば、2024年上半期だけで64のWeb3+AIプロジェクトが資金調達を完了しており、その中で人工知能に基づくオペレーティングシステムZyber365はAラウンドで1億ドルの資金調達を行い、最高記録を樹立しました。

二級市場はさらに繁栄し、暗号集約サイトCoingeckoのデータによると、わずか1年余りの間にAI分野の総時価総額は485億ドルに達し、24時間の取引量は860億ドルに近づいています。主流のAI技術の進展による好材料も明らかで、OpenAIのSoraテキストから動画へのモデルが公開された後、AIセクターの平均価格は151%上昇しました。AI効果は、暗号通貨の資金を集めるセクターの一つであるMemeにも波及しており、初のAIエージェントコンセプトのMemeCoinであるGOATは急速に人気を博し、14億ドルの評価を得て、AI Memeブームを成功裏に引き起こしました。

AI+Web3に関する研究と話題も同様に盛り上がっており、AI+DepinからAI Memecoin、そして現在のAI AgentやAI DAOに至るまで、FOMOの感情は新しいストーリーの切り替えの速度に追いついていない。

AI+Web3という熱い資金、トレンド、未来の幻想に満ちた用語の組み合わせは、資本の結びつきによる結婚と見なされがちです。この華やかな外見の下で、投機家の舞台なのか、それとも夜明けの爆発の前夜なのかを見分けるのは非常に難しいです。

この質問に答えるために、双方にとって重要な考慮事項は、相手がいることでより良くなるのか?相手のモデルから利益を得ることができるのか?この記事は先人の肩の上に立ってこのパターンを考察しようとしています:Web3はAI技術スタックの各段階でどのように機能し、AIはWeb3に何を新たにもたらすことができるのか?

AIスタックにおけるWeb3の機会は何ですか?

このトピックを展開する前に、AI大規模モデルの技術スタックを理解する必要があります。

大規模モデルは人間の脳のようなもので、初期段階では生まれたての赤ちゃんのように、世界を理解するために膨大な外部情報を観察し吸収する必要があります。これはデータの「収集」段階です。コンピュータは人間の多感覚を持っていないため、訓練の前に「前処理」を通じてラベルのない情報をコンピュータが理解できる形式に変換する必要があります。

データを入力すると、AIは「トレーニング」を通じて理解と予測能力を持つモデルを構築します。これは、赤ちゃんが外界を理解し学ぶ過程に似ています。モデルのパラメータは、赤ちゃんが言語能力を継続的に調整するようなものです。学習内容は科目ごとに分けられたり、人とのコミュニケーションを通じてフィードバックを得て修正されたりすると、「ファインチューニング」段階に入ります。

子供が成長して話すようになると、新しい対話の中で意味を理解し、考えを表現できるようになります。これはAI大型モデルの「推論」に似ており、新しい言語のテキスト入力に対する予測分析が可能です。赤ちゃんは言語を通じて感情を表現し、物体を描写し、問題を解決します。これはAI大型モデルが訓練を完了した後、推論段階でさまざまな特定のタスク(画像分類、音声認識など)に適用されることに似ています。

AIエージェントは、大規模モデルの次の形態により近いものであり、タスクを独立して実行し、複雑な目標を追求する能力を持っています。思考能力だけでなく、記憶や計画を行い、ツールを使って世界と相互作用することもできます。

現在、AIの各スタックの痛点に対処するために、Web3はAIモデルプロセスの各段階をカバーする多層的で相互接続されたエコシステムを初めて形成しました。

! AI+Web3:タワー&スクエア

基本レイヤー: Airbnb で能力とデータを計算

ハッシュレート

現在、AIの最高コストの一つは、モデルのトレーニングと推論に必要な計算力とエネルギーです。

例えば、MetaのLLAMA3は訓練を完了するのに16000のNVIDIA H100GPUが30日間必要です。H100 80GB版の単価は3万から4万ドルで、これには4億から7億ドルの計算ハードウェア投資(GPU+ネットワークチップ)が必要です。毎月の訓練消費は16億キロワット時で、エネルギー支出は約2000万ドルです。

AIの計算能力の解放は、Web3がAIと交差する最初の分野である——DePin(の分散型物理インフラネットワーク)です。現在、DePin Ninjaデータサイトには1400以上のプロジェクトがリストアップされており、GPU計算能力の共有を代表するプロジェクトにはio.net、Aethir、Akash、Render Networkなどがあります。

主な論理は、プラットフォームが無許可の分散型方式で未使用のGPUリソースの所有者が計算能力を提供できるようにし、UberやAirbnbのような売買双方のオンライン市場を通じて未活用のGPUリソースの利用率を向上させ、エンドユーザーがより低コストで効率的な計算リソースを得ることを可能にすることです。同時に、ステーキングメカニズムにより、リソース提供者が品質管理メカニズムに違反したりネットワークを中断した場合に罰則が科されることが保証されます。

特徴は次のとおりです:

  • 余剰GPUリソースを集める: 供給側は主に第三者の独立した中小型データセンターや暗号マイニングファームなどのオペレーターの過剰コンピューティングリソースであり、コンセンサスメカニズムはPoSのマイニングハードウェアで、FileCoinやETHマイニングマシンなどがあります。一部のプロジェクトは、exolabがMacBook、iPhone、iPadなどのローカルデバイスを利用して、大規模モデル推論のコンピューティングネットワークを構築することで、開始のハードルを下げることに努めています。

  • AI計算力ロングテール市場を対象に: a. 技術面:分散型計算力市場は推論ステップにより適しています。トレーニングは超大規模クラスターのGPUのデータ処理能力に依存しがちですが、推論はGPUの計算性能に対する要求が相対的に低く、Aethirは低遅延レンダリング作業とAI推論アプリケーションに注力しています。 b. 需要サイド: 中小規模の計算力を必要とする側は、自分たちの大規模モデルを単独で訓練することはなく、少数の主要な大規模モデルを中心に最適化や微調整を行うことを選択します。これらのシナリオは、分散した未使用の計算リソースに自然に適しています。

  • 分散型所有権: ブロックチェーン技術の意義は、リソースの所有者が常にリソースに対するコントロール権を保持し、需要に応じて柔軟に調整し、収益を得ることができることです。

データ

データはAIの基盤です。データがなければ、計算は浮遊する藻のように無意味であり、データとモデルの関係は"Garbage in, Garbage out"という格言のようで、データの量と入力の質が最終的なモデル出力の質を決定します。現在のAIモデルの訓練において、データはモデルの言語能力、理解能力、さらには価値観や人間的な表現を決定します。現在、AIのデータ需要の困難は主に次のように表れています:

  • データ渇望: AIモデルのトレーニングは膨大なデータの入力に依存しています。報告によると、OpenAIはGPT-4のパラメータ量を兆単位に達しました。

  • データ品質: AIと各業界の統合に伴い、データのタイムリーさ、多様性、専門的な垂直データ、新興データソースであるソーシャルメディアの感情の取り込みが、その品質に新たな要求を突きつけています。

  • プライバシーとコンプライアンスの問題: 各国、企業は質の高いデータセットの重要性を徐々に認識し、データセットのクローリングを制限しています。

  • データ処理コストが高い: データ量が多く、処理プロセスが複雑です。AI企業の30%以上の研究開発コストが基礎データの収集と処理に使われているとされています。

現在、Web3のソリューションは次のように表れています:

  1. データ収集: 無料で提供されるリアルワールドデータは急速に枯渇しており、AI企業のデータ支出は年々増加しています。しかし、この支出は真のデータ提供者に還元されておらず、プラットフォームはデータから得られる価値を独占しています。例えば、RedditはAI企業とのデータライセンス契約を結ぶことで2億300万ドルの収入を実現しました。

真の貢献者がユーザーをデータ価値創造に参加させ、分散型ネットワークとインセンティブメカニズムを通じて低コストでユーザーのよりプライベートでより価値のあるデータを取得することがWeb3のビジョンです。

  • Grassは分散型データレイヤーとネットワークであり、ユーザーはGrassノードを実行することで、余剰帯域幅を提供し、インターネット全体のリアルタイムデータをキャッチするためのリレー流量を貢献し、トークン報酬を得ることができます。

  • Vanaは独自のデータ流動性プール(DLP)の概念を導入し、ユーザーはプライベートデータ((購入履歴、ブラウジング習慣、ソーシャルメディア活動など))を特定のDLPにアップロードし、特定の第三者に使用を許可するかどうかを柔軟に選択できます。

  • PublicAIでは、ユーザーはX上で#AI或#Web3タグを使用し、@PublicAIを通じてデータ収集を実現できます。

  1. データ前処理: AIデータ処理プロセスでは、収集されたデータが通常ノイズが多く、エラーを含むため、モデルのトレーニング前にクリーンアップし、使用可能なフォーマットに変換する必要があります。これには、標準化、フィルタリング、欠損値の処理などの繰り返し作業が含まれます。この段階はAI業界で少数の手作業の一環であり、データアノテーション専門家の業界が派生しています。モデルがデータの質に対する要求を高めるにつれて、データアノテーション専門家のハードルも高くなります。このタスクはWeb3の分散型インセンティブメカニズムに自然に適しています。
  • GrassとOpenLayerはデータアノテーションという重要なステップを導入することを検討しています。

  • Synesisは「Train2earn」コンセプトを提唱し、データの質を強調しています。ユーザーは注釈データ、コメント、またはその他の入力を提供することにより報酬を得ることができます。

  • データラベリングプロジェクトSapienは、ラベリングタスクをゲーム化し、ユーザーがポイントをステークしてより多くのポイントを獲得できるようにします。

  1. データプライバシーとセキュリティ: データプライバシーとセキュリティは二つの異なる概念であることを明確にする必要があります。データプライバシーはセンシティブなデータの処理に関わり、データセキュリティはデータ情報を未承認のアクセス、破壊、盗難から保護します。したがって、Web3プライバシー技術の利点と潜在的な応用シーンは次のように表現されます: (1)センシティブデータのトレーニング; (2)データコラボレーション: 複数のデータ所有者が共同でAIトレーニングに参加でき、原データを共有する必要がありません。

現在のWeb3で一般的なプライバシー技術には次のようなものがあります:

  • Super Protocolなどの信頼できる実行環境(TEE)

  • BasedAI、Fhenix.io、Inco Networkなどの完全準同型暗号化(FHE)。

  • ゼロ知識技術(zk)、Reclaim Protocolのように、zkTLS技術を使用してHTTPSトラフィックのゼロ知識証明を生成し、ユーザーが外部サイトから活動、評判、アイデンティティデータを安全にインポートできるようにし、敏感な情報を公開することなく行います。

しかし、この分野はまだ初期段階にあり、ほとんどのプロジェクトはまだ探索中であり、現在の課題は計算コストが高すぎることです。例えば:

  • zkMLフレームワークEZKLは、1M-nanoGPTモデルの証明を生成するのに約80分かかります。

  • Modulus Labsのデータによると、zkMLのオーバーヘッドは純粋な計算の1000倍以上です。

  1. データストレージ: データが得られた後は、チェーン上にデータを保存し、そのデータから生成されたLLMを使用する必要があります。データの可用性(DA)を核心問題とし、イーサリアムのDankshardingアップグレード前は、そのスループットは0.08MBでした。一方、AIモデルのトレーニングとリアルタイム推論には通常、毎秒50-100GBのデータスループットが必要です。このようなオーダーの差は、既存のチェーン上のソリューションが「リソース集約型AIアプリケーション」に直面したときに力不足になることを意味しています。
  • 0g.AIはこの種の代表的なプロジェクトです。これはAIの高性能ニーズに対応した集中型ストレージソリューションで、主な特徴は次のとおりです: 高性能とスケーラビリティ、(Sharding)と(Erasure Coding)技術を通じて、大規模データセットの迅速なアップロードとダウンロードをサポートし、データ転送速度は毎秒5GBに近づきます。

ミドルウェア: モデルのトレーニングと推論

オープンソースモデルの分散型マーケット

AIモデルのクローズドソースとオープンソースに関する議論は決して止まることがありません。オープンソースがもたらす集団的な革新は、クローズドモデルには比類のない利点ですが、収益モデルがない前提で、オープンソースモデルはどのように開発者のモチベーションを高めることができるのでしょうか?考えるべき方向性です。今年4月、百度の創業者である李彦宏は "オープンソースモデルはますます遅れをとるだろう" と断言しました。

これに対して、Web3は分散型オープンソースモデル市場の可能性を提案しており、モデル自体をトークン化し、チームに一定割合のトークンを保持させ、モデルの将来の収入の一部をトークン保有者に流すことを目指しています。

  • BittensorプロトコルはオープンソースモデルのP2P市場を構築し、数十の「サブネット」で構成されています。リソース提供者(は、計算、データ収集/ストレージ、機械学習の人材)が相互に競争し、特定のサブネットオーナーの目標を満たすために活動します。各サブネットは相互にインタラクションし、相互に学習し、より強力な知能を実現します。報酬はコミュニティの投票によって分配され、競争のパフォーマンスに基づいて各サブネット内でさらに分配されます。

  • ORAは初期モデル発行(IMO)の概念を導入し、AIモデルをトークン化し、分散型ネットワークを通じてAIモデルを購入、販売、開発できるようにします。

  • 感覚があり、1つは中央に行きます

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • リポスト
  • 共有
コメント
0/400
DAOplomacyvip
· 08-10 07:18
また別のweb3 x aiの物語...正直、この映画は見たことがあります。
原文表示返信0
SerLiquidatedvip
· 08-10 07:17
また大饼を描こうとしている
原文表示返信0
ReverseTradingGuruvip
· 08-10 07:05
また収入を得ることができるのかな
原文表示返信0
DegenMcsleeplessvip
· 08-10 07:03
人をカモにする一波aiはこの意味でしょう...
原文表示返信0
staking_grampsvip
· 08-10 06:57
まだAIの熱を炒めていますか??つまらない
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)