AI+Web3: Дані, Обчислювальна потужність та модельна Децентралізація революція

AI+Web3: Вежі та площі

ТЛ; ДОКТОР

  1. Проекти Web3 з концепцією ШІ стали об'єктами залучення капіталу на первинному та вторинному ринках.

  2. Можливості Web3 в галузі штучного інтелекту проявляються в: використанні розподілених стимулів для координації потенційних постачальників у довгому хвості ( через дані, зберігання та обчислення ), одночасно створюючи децентралізований ринок для відкритих моделей та AI Agent.

  3. Штучний інтелект у сфері Web3 в основному використовується для ланцюгових фінансів ( криптооплат, торгівлі, аналізу даних ) та допомоги в розробці.

  4. Ефективність AI+Web3 проявляється у їхній взаємодоповнюваності: Web3 має надію протистояти централізації AI, AI має надію допомогти Web3 вийти за межі.

! AI+Web3: Вежі та Плази

Вступ

За останні два роки розвиток ШІ сприймається як натискання кнопки прискорення; хвиля, яку спричинив ChatGPT, не лише відкрила нову еру генеративного штучного інтелекту, але й викликала великі хвилі в сфері Web3.

Завдяки концепції ШІ, фінансування на крипторинку помітно підвищилося в умовах уповільнення. За статистикою, лише в першій половині 2024 року 64 проекти Web3+AI завершили фінансування, серед яких операційна система на базі штучного інтелекту Zyber365 залучила 100 мільйонів доларів у раунді A, встановивши рекорд.

Ринок другого рівня став більш процвітаючим, дані криптоагрегатора Coingecko показують, що за трохи більше ніж рік загальна капіталізація AI-сектора досягла 48,5 мільярдів доларів, а обсяг торгів за 24 години наблизився до 8,6 мільярдів доларів; позитивний вплив основних досягнень у технологіях AI очевидний, після випуску моделі OpenAI Sora для перетворення тексту у відео середня ціна в секторі AI зросла на 151%; ефект AI також вплинув на один із секторів криптовалют, що залучають капітал, Meme: перша концепція AI-агента MemeCoin — GOAT швидко стала популярною та отримала оцінку в 1,4 мільярда доларів, успішно викликавши бум AI Meme.

Дослідження та теми, пов'язані з AI+Web3, також дуже актуальні: від AI+Depin до AI Memecoin, а далі до нинішніх AI Agent та AI DAO, емоція FOMO вже не встигає за швидкістю зміни нових наративів.

Комбінація термінів AI+Web3, заповнена гарячими грошима, перспективами та фантазіями про майбутнє, неминуче сприймається як примусова шлюбна угода капіталу, нам важко визначити, під цим розкішним покриттям, чи це справжня арена спекулянтів, чи переддень вибуху нового світанку?

Щоб відповісти на це запитання, ключовим міркуванням для обох сторін є: чи стане краще з присутністю один одного? Чи можна отримати вигоду з моделей один одного? Ця стаття намагається, спираючись на досвід попередників, розглянути цю картину: як Web3 може відігравати роль на різних етапах технологічного стеку AI, а що AI може принести Web3 в новому диханні?

Які можливості має Web3 під стеком ІШ?

Перед тим, як розгорнути цю тему, нам потрібно зрозуміти технологічний стек великих моделей ШІ:

Великі моделі схожі на людський мозок, на початку вони як новонароджена дитина, якій потрібно спостерігати та засвоювати величезні обсяги зовнішньої інформації, щоб зрозуміти світ, це етап "збирання" даних; оскільки комп'ютери не мають багатосенсорності людини, перед навчанням необхідно через "попередню обробку" перетворити не марковану інформацію в формат, зрозумілий комп'ютеру.

Вводячи дані, ШІ за допомогою "навчання" створює модель, здатну розуміти та прогнозувати, подібно до того, як дитина поступово розуміє і вивчає навколишній світ. Параметри моделі схожі на мовні здібності дитини, які постійно коригуються. Вміст навчання поділяється на предмети або отримується зворотний зв'язок під час спілкування з людьми, що веде до етапу "тонкого налаштування".

Коли діти виростають і починають говорити, вони здатні розуміти сенс у нових розмовах і висловлювати свої думки, подібно до "інференції" в великих моделях ШІ, які можуть проводити прогнозний аналіз на нових текстах мовлення. Немовлята виражають свої почуття, описують об'єкти і вирішують проблеми через мову, що нагадує, як великі моделі ШІ, завершивши навчання, застосовуються на етапі інференції для різних специфічних завдань, таких як класифікація зображень, розпізнавання мови тощо.

AI Агент є більш близьким до наступної форми великої моделі — здатного самостійно виконувати завдання та переслідувати складні цілі, який не тільки має здатність до мислення, але також може запам'ятовувати, планувати і використовувати інструменти для взаємодії зі світом.

Наразі, на основі болів у всіх шарах ШІ, Web3 попередньо сформував багаторівневу, взаємопов'язану екосистему, що охоплює всі етапи процесу моделей ШІ.

! AI+Web3: Вежі та Квадрати

Базовий рівень: Airbnb для обчислювальної потужності та даних

Потужність

На даний момент однією з найвищих витрат на штучний інтелект є обчислювальна потужність та енергія, необхідні для навчання та інференції моделей.

Наприклад, для навчання Meta LLAMA3 потрібно 16000 NVIDIA H100GPU протягом 30 днів. Один H100 80GB коштує 30-40 тисяч доларів, що потребує інвестицій у обчислювальне обладнання в розмірі 400-700 мільйонів доларів (GPU+мережеві чіпи ), щомісяця витрачається 1,6 мільярда кіловат-годин, витрати на енергію складають майже 20 мільйонів доларів.

Розвантаження обчислювальної потужності AI є одним з перших перетинів Web3 з AI — DePin( децентралізовані мережі фізичної інфраструктури). Наразі сайт даних DePin Ninja перерахував понад 1400 проектів, серед яких представниками обміну GPU є такі проекти, як io.net, Aethir, Akash, Render Network та ін.

Основна логіка полягає в тому, що платформа дозволяє власникам невикористаних ресурсів GPU вносити обчислювальні потужності в децентралізованому режимі без дозволу, підвищуючи використання недостовірних ресурсів GPU через онлайн-ринок між покупцями та продавцями, подібний до Uber або Airbnb, де кінцеві користувачі отримують більш ефективні обчислювальні ресурси за нижчою ціною; водночас механізм стейкінгу забезпечує покарання для постачальників ресурсів у разі порушення механізму контролю якості або перерви в мережі.

Особливості включають:

  • Збір невикористаних GPU-ресурсів: постачальниками є переважно незалежні малі та середні дата-центри, оператори криптодобувних майданчиків тощо, які мають надлишкові обчислювальні ресурси, а механізм консенсусу - PoS для майнінгового обладнання, такого як FileCoin та ETH-майнери. Деякі проекти прагнуть знизити поріг входження, наприклад, exolab використовує MacBook, iPhone, iPad та інші локальні пристрої для створення обчислювальної мережі для запуску великих моделей.

  • Орієнтуючись на довгий хвіст ринку обчислювальної потужності AI: a. Технічний бік: децентралізований ринок обчислювальних потужностей більше підходить для етапів висновків. Навчання більше залежить від обробної здатності даних супер великих кластерів GPU, тоді як висновки мають відносно нижні вимоги до обчислювальної продуктивності GPU, наприклад, Aethir зосереджується на рендерингу з низькою затримкою та AI-висновкових застосунках. b. Сторона попиту: малі та середні споживачі обчислювальної потужності не будуть окремо навчати свої великі моделі, а виберуть оптимізацію та доопрацювання навколо кількох провідних великих моделей, ці сценарії природно підходять для розподілених невикористаних обчислювальних ресурсів.

  • Децентралізоване право власності: сенс технології блокчейн полягає в тому, що власники ресурсів завжди зберігають контроль над ресурсами, можуть гнучко коригувати їх відповідно до потреб і отримувати прибуток.

Дані

Дані є основою штучного інтелекту. Без даних обчислення стають марними, як порожній плід, а зв'язок між даними та моделлю нагадує прислів'я "Сміття в, сміття з"; кількість даних та якість введення визначають остаточну якість виходу моделі. Для сучасних моделей штучного інтелекту дані визначають мовні можливості моделі, її здатність до розуміння, а також цінності та гуманістичні прояви. На даний момент проблеми з попитом на дані для штучного інтелекту в основному проявляються в:

  • Голод даних: навчання AI-моделей залежить від величезних обсягів даних. Відомо, що OpenAI навчає GPT-4 з параметрами на трильйонному рівні.

  • Якість даних: з поєднанням ШІ з різними галузями, актуальність даних, їх різноманітність, спеціалізація вертикальних даних та нові джерела даних, такі як емоції в соціальних мережах, ставлять нові вимоги до їх якості.

  • Проблеми конфіденційності та відповідності: країни та підприємства поступово усвідомлюють важливість якісних наборів даних і обмежують їх збори.

  • Високі витрати на обробку даних: велика кількість даних, складний процес обробки. За інформацією, понад 30% витрат на дослідження та розробки в AI компаніях йдуть на базове збори та обробку даних.

Наразі рішення Web3 виявляються в:

  1. Збір даних: безкоштовні реальні дані швидко вичерпуються, витрати AI-компаній на дані зростають щороку. Але ці витрати не повертаються справжнім постачальникам даних, платформи самостійно отримують цінність від даних, як Reddit, уклавши угоду про ліцензування даних з AI-компаніями, отримала 203 мільйони доларів доходу.

Дати можливість справжнім учасникам користувачів брати участь у створенні вартості даних та отримувати більш приватні та цінні дані від користувачів за допомогою розподіленої мережі та механізмів стимулювання з низькими витратами – це бачення Web3.

  • Grass є децентралізованим рівнем даних та мережею, користувачі можуть запустити вузли Grass, вносячи свій вільний帯宽 та релеючи трафік для захоплення реальних даних з Інтернету, та отримувати токенні винагороди.

  • Vana вводить унікальну концепцію пули ліквідності даних (DLP), де користувачі можуть завантажувати свої приватні дані (, такі як історія покупок, звички перегляду, активність у соціальних мережах тощо ) до певного DLP і гнучко вибирати, чи надавати дозвіл на їх використання конкретними третіми особами.

  • У PublicAI користувачі можуть використовувати #AI或#Web3 тег на X та @PublicAI для збору даних.

  1. Попередня обробка даних: Під час обробки даних AI, оскільки зібрані дані зазвичай є шумними та містять помилки, перед навчанням моделі необхідно очистити їх та перетворити у придатний формат, що включає стандартизацію, фільтрацію та обробку відсутніх значень повторюваних завдань. Ця стадія є однією з небагатьох ручних етапів в індустрії AI, що призвела до виникнення індустрії аннотації даних. Оскільки вимоги моделі до якості даних зростають, поріг входження для аннотаційників також підвищується, це завдання природно підходить для децентралізованих механізмів стимулювання Web3.
  • Grass та OpenLayer розглядають можливість додавання ключового етапу маркування даних.

  • Synesis запропонував концепцію "Train2earn", підкреслюючи якість даних; користувачі можуть отримувати винагороди за надання позначених даних, коментарів або інших внесків.

  • Проект маркування даних Sapien перетворює маркувальні задачі на гру та дозволяє користувачам ставити бали, щоб заробити більше балів.

  1. Приватність даних та безпека: потрібно чітко розмежувати приватність даних та безпеку, оскільки це два різні поняття. Приватність даних стосується обробки чутливих даних, тоді як безпека даних захищає інформацію від несанкціонованого доступу, знищення та крадіжки. Таким чином, переваги технологій приватності Web3 і потенційні сценарії застосування виявляються в: (1) навчанні на чутливих даних; (2) співпраця з даними: кілька власників даних можуть спільно брати участь у навчанні ШІ, не обмінюючись сирими даними.

Серед поширених технологій конфіденційності в Web3 наразі є:

  • Достовірне виконуване середовище(TEE), таке як Super Protocol;

  • Повна гомоморфна криптація ( FHE ), такі як BasedAI, Fhenix.io або Inco Network;

  • Технологія з нульовим знанням ( zk ), така як Reclaim Protocol, використовує технологію zkTLS для створення доказів нульового знання HTTPS-трафіку, що дозволяє користувачам безпечно імпортувати дані про активність, репутацію та ідентичність з зовнішніх веб-сайтів без розкриття чутливої інформації.

Проте, ця сфера все ще на початковій стадії, більшість проектів все ще в процесі дослідження, а поточна проблема полягає в тому, що витрати на обчислення занадто високі, наприклад:

  • Фреймворк zkML EZKL потребує близько 80 хвилин для генерації доказу моделі 1M-nanoGPT.

  • За даними Modulus Labs, витрати на zkML перевищують чисті обчислення більш ніж у 1000 разів.

  1. Зберігання даних: після отримання даних потрібно ще зберігати дані на ланцюгу та LLM, згенеровану на основі цих даних. Основною проблемою є доступність даних (DA), до оновлення Danksharding в Ethereum її пропускна здатність становила 0,08 МБ. Водночас тренування AI моделей та реальне прогнозування зазвичай вимагають пропускної здатності даних від 50 до 100 ГБ на секунду. Така різниця в масштабах робить існуючі рішення на ланцюгу нездатними впоратися з "ресурсомісткими AI застосуваннями."
  • 0g.AI є представником цього типу проектів. Це централізоване рішення для зберігання, спроектоване для високих вимог продуктивності AI, основні характеристики включають: висока продуктивність та масштабованість, підтримка швидкого завантаження та завантаження великих обсягів даних завдяки передовим технологіям шардінгу (Sharding) та кодування із стиранням (Erasure Coding), швидкість передачі даних досягає майже 5 ГБ на секунду.

Проміжне ПЗ: навчання та висновок моделі

Децентралізований ринок відкритих моделей

Дебати про те, чи мають бути AI моделі закритими чи відкритими, ніколи не вщухають. Колективні інновації, які приносить відкритість, є незрівнянною перевагою над закритими моделями, проте без прибуткової моделі, як можуть відкриті моделі підвищити мотивацію розробників? Це варто розглянути. У квітні цього року засновник Baidu Лі Яньхун стверджував, що "відкриті моделі будуть дедалі більше відставати."

У зв'язку з цим Web3 пропонує можливість децентралізованого ринку моделей з відкритим вихідним кодом, тобто токенізації самих моделей, з резервуванням певного відсотка токенів для команди та направленням частини майбутніх доходів від моделі до тримачів токенів.

  • Протокол Bittensor створює P2P ринок відкритих моделей, що складається з десятків "підмереж", де постачальники ресурсів ( обчислюють, збирають/зберігають дані, а таланти в області машинного навчання ) змагаються один з одним, щоб задовольнити цілі власників конкретних підмереж. Підмережі можуть взаємодіяти та навчатися одна в одної, що дозволяє досягти більшої потужності інтелекту. Нагороди розподіляються шляхом голосування громади, а також додатково розподіляються в кожній підмережі на основі конкурентних результатів.

  • ORA вводить концепцію початкового моделювання випуску (IMO), токенізуючи AI моделі, які можна купувати, продавати та розробляти через децентралізовану мережу.

  • Sentient, децентралізований

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
DAOplomacyvip
· 08-10 07:18
ще одна нарація web3 x ai... насправді вже бачив цей фільм
Переглянути оригіналвідповісти на0
SerLiquidatedvip
· 08-10 07:17
Знову малюють BTC.
Переглянути оригіналвідповісти на0
ReverseTradingGuruvip
· 08-10 07:05
Знову можна отримати прибуток?
Переглянути оригіналвідповісти на0
DegenMcsleeplessvip
· 08-10 07:03
обдурювати людей, як лохів一波ai是这个意思吧...
Переглянути оригіналвідповісти на0
staking_grampsvip
· 08-10 06:57
Все ще спекулюєте на популярності AI?? Нудно
Переглянути оригіналвідповісти на0
  • Закріпити