A fusão da IA com a indústria de encriptação: como o aprendizado profundo está a remodelar o panorama do Web3

AI x Crypto: Do zero ao auge

Introdução

O recente desenvolvimento da indústria de inteligência artificial é visto por algumas pessoas como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em vários setores, estimando-se que tenha melhorado a eficiência do trabalho nos Estados Unidos em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software, mudando de um código preciso do passado para uma estrutura de grandes modelos mais generalizada embutida no software, capaz de suportar entradas e saídas de modalidades mais amplas. A tecnologia de aprendizado profundo trouxe a quarta prosperidade para a indústria de IA, e essa onda também afetou a indústria de criptomoedas.

Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, as classificações tecnológicas e o impacto da tecnologia de aprendizado profundo na indústria. Analisará em profundidade o estado atual e as tendências do desenvolvimento da cadeia de suprimentos, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda no aprendizado profundo. Além disso, discutirá essencialmente a relação entre criptomoedas e a indústria de IA, organizando o padrão da cadeia de suprimentos de IA relacionada a criptomoedas.

Novos conhecimentos丨AI x Crypto: do zero ao auge

História do desenvolvimento da indústria de IA

A indústria de IA começou na década de 1950, e para realizar a visão da inteligência artificial, o mundo acadêmico e a indústria desenvolveram várias escolas de pensamento para alcançar a inteligência artificial em diferentes épocas e contextos disciplinares.

A tecnologia moderna de inteligência artificial utiliza principalmente o termo "aprendizado de máquina", cuja ideia é permitir que as máquinas melhorem o desempenho do sistema através de iterações repetidas baseadas em dados nas tarefas. Os principais passos são enviar dados para o algoritmo para treinar o modelo, testar e implantar o modelo, e usar o modelo para realizar tarefas de previsão automatizadas.

Atualmente, existem três principais correntes no aprendizado de máquina: o conexionismo, o simbolismo e o behaviorismo, que imitam respectivamente o sistema nervoso humano, o pensamento e o comportamento. Atualmente, o conexionismo, representado por redes neurais (também conhecido como aprendizado profundo), está em ascensão, principalmente porque essa arquitetura tem uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e o número de neurônios (parâmetros) são suficientemente altos, há oportunidades suficientes para ajustar tarefas gerais complexas. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios. Após várias iterações de dados, esse neurônio alcançará seu estado ótimo (parâmetros), que é também a origem de sua "profundidade" - um número suficiente de camadas e neurônios.

A tecnologia de aprendizado profundo baseada em redes neurais também passou por várias iterações e evoluções técnicas, desde as redes neurais mais antigas, passando por redes neurais feedforward, RNN, CNN, GAN, até a evolução para os modernos grandes modelos como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor para codificar os dados de todos os modos (como áudio, vídeo, imagens etc.) em valores numéricos correspondentes. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, implementando multimodalidade.

O desenvolvimento da IA passou por três ondas tecnológicas: A primeira onda ocorreu na década de 1960, dez anos após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e interação homem-máquina. Nesse mesmo período, os sistemas especialistas nasceram.

A segunda onda de tecnologia de IA ocorreu em 1997, quando o Deep Blue da IBM venceu o campeão mundial de xadrez Garry Kasparov por 3,5 a 2,5. Esta vitória é considerada um marco na inteligência artificial.

A terceira onda de tecnologia de IA ocorreu em 2006. Os três gigantes do aprendizado profundo, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de aprendizado profundo, um algoritmo que utiliza redes neurais artificiais como arquitetura para realizar aprendizado de representação de dados. A partir daí, os algoritmos de aprendizado profundo evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, esses algoritmos moldaram juntos esta terceira onda tecnológica, que também é o auge do conexionismo.

Novos Usuários: AI x Crypto: Do Zero ao Topo

Cadeia de Indústria de Aprendizado Profundo

Atualmente, os modelos de linguagem em grande escala usam métodos de aprendizagem profunda baseados em redes neurais. Com o GPT à frente, esses modelos geraram uma onda de entusiasmo pela inteligência artificial, atraindo um grande número de participantes para este setor, com uma explosão significativa na demanda do mercado por dados e poder computacional. Esta parte explora principalmente a cadeia de valor dos algoritmos de aprendizagem profunda, sua composição ao longo da cadeia, bem como o estado atual das partes envolvidas, a relação entre oferta e demanda e o desenvolvimento futuro.

O treinamento dos LLMs (modelos grandes) liderados pelo GPT, baseado na tecnologia Transformer, é dividido em três etapas:

Primeiro passo, pré-treinamento. Ao fornecer um número suficiente de pares de dados à camada de entrada, buscamos os melhores parâmetros para cada neurônio do modelo; esse processo requer uma quantidade significativa de dados e é o mais dispendioso em termos de poder computacional.

Segundo passo, ajuste fino. Fornecer um conjunto de dados com uma quantidade menor, mas de qualidade muito alta para treinar, a fim de melhorar a qualidade da saída do modelo.

Terceiro passo, aprendizagem por reforço. Estabelecer um "modelo de recompensa" para determinar se a saída do grande modelo é de alta qualidade, a fim de iterar automaticamente os parâmetros do grande modelo.

Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento exige uma quantidade muito alta de dados, e a potência de GPU necessária é a maior; o ajuste fino requer dados de maior qualidade para melhorar os parâmetros; o aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.

A performance de grandes modelos é principalmente determinada por três fatores: número de parâmetros, quantidade e qualidade dos dados, e capacidade computacional. Estes três fatores afetam conjuntamente a qualidade dos resultados e a capacidade de generalização do grande modelo. Supondo que o número de parâmetros seja p e a quantidade de dados seja n (calculada em termos de quantidade de Tokens), podemos calcular a quantidade de computação necessária através de regras empíricas, permitindo assim estimar a capacidade computacional a ser adquirida e o tempo de treinamento necessário.

A capacidade de computação é geralmente medida em Flops, que representa uma operação de ponto flutuante. Segundo a regra prática, o pré-treinamento de um grande modelo requer cerca de 6np Flops. A inferência (o processo em que os dados de entrada aguardam a saída do grande modelo) requer aproximadamente 2np Flops.

No início, o treinamento era feito com chips de CPU para fornecer suporte de poder computacional, e depois gradualmente passou a usar GPUs, como os chips A100 e H100 da Nvidia. Isso porque as GPUs podem ser utilizadas como computação dedicada, apresentando uma eficiência energética muito superior à das CPUs. As GPUs realizam operações de ponto flutuante principalmente através do módulo Tensor Core. Os dados de Flops em precisão FP16/FP32 do chip representam sua principal capacidade de cálculo e são um dos principais indicadores de desempenho do chip.

Supondo que os parâmetros de um grande modelo, tomando o GPT-3 como exemplo, tenham 175 bilhões de parâmetros e uma quantidade de dados de 180 bilhões de Tokens (aproximadamente 570GB), então uma pré-treinamento requer 6np de Flops, cerca de 3,1510^22 Flops. Em unidades de TFLOPS (Trilhão de FLOPs), isso equivale a cerca de 3,1510^10 TFLOPS, ou seja, um chip do modelo SXM levaria aproximadamente 584 dias para pré-treinar uma vez o GPT-3.

Dessa forma, é evidente que a enorme quantidade de cálculos necessários para o pré-treinamento requer várias placas de chips de última geração trabalhando juntas. A quantidade de parâmetros do GPT-4 é dez vezes a do GPT-3, o que significa que, mesmo que a quantidade de dados permaneça a mesma, o número de chips também precisará ser comprado em dez vezes. O número de tokens do GPT-4 é de 13 trilhões, sendo também dez vezes o do GPT-3, e, no final, o GPT-4 pode precisar de mais de 100 vezes a capacidade de computação dos chips.

No treinamento de grandes modelos, também há problemas de armazenamento de dados. O espaço de memória da GPU geralmente é pequeno (como o A100 com 80GB), não conseguindo acomodar todos os dados, portanto, é necessário considerar a largura de banda do chip, ou seja, a velocidade de transferência de dados do disco rígido para a memória. Ao mesmo tempo, devido ao uso de várias GPUs, também envolve a taxa de transferência entre as GPUs. Assim, muitas vezes, os fatores ou custos que limitam a prática de treinamento de modelos não são necessariamente a capacidade de computação do chip, mas sim a largura de banda do chip. Como a transferência de dados é muito lenta, isso pode levar a um aumento no tempo de execução do modelo, e os custos de energia também aumentarão.

A cadeia industrial de aprendizado profundo inclui principalmente as seguintes partes:

  1. Fornecedores de hardware GPU
  2. Provedor de serviços em nuvem
  3. Fornecedores de dados de treinamento
  4. Fornecedor de banco de dados
  5. Dispositivos de borda
  6. Aplicação

Novos conhecimentos丨AI x Crypto: Do zero ao topo

Fornecedores de GPU de hardware

Atualmente, a Nvidia está em uma posição de liderança absoluta no campo dos chips GPU para IA. O meio acadêmico utiliza principalmente GPUs de nível de consumo (série RTX); a indústria utiliza principalmente H100, A100 e outros para a comercialização de grandes modelos.

Em 2023, o chip H100 da Nvidia, o mais avançado, foi rapidamente adquirido por várias empresas após seu lançamento. A demanda global pelo chip H100 é muito maior do que a oferta, com um ciclo de entrega que já atinge 52 semanas. Dada a situação de monopólio da Nvidia, o Google liderou a formação da Aliança CUDA, com a participação da Intel, Qualcomm, Microsoft e Amazon, com a esperança de desenvolver conjuntamente GPUs para se livrar da influência da Nvidia.

Para grandes empresas de tecnologia/fornecedores de serviços em nuvem/laboratórios nacionais, é comum a compra de milhares ou até dezenas de milhares de chips H100 para montar HPC (centros de computação de alto desempenho). Até o final de 2023, o número de pedidos de chips H100 ultrapassou 500 mil.

Em termos de fornecimento de chips da Nvidia, a notícia sobre o H200 já foi divulgada, com previsão de que o desempenho do H200 seja o dobro do desempenho do H100, enquanto o B100 será lançado no final de 2024 ou no início de 2025. Atualmente, o desenvolvimento de GPUs ainda atende à Lei de Moore, com o desempenho dobrando a cada 2 anos e os preços caindo pela metade.

Novato Esclarecimento丨AI x Crypto: Do Zero ao Pico

Provedor de serviços em nuvem

Os provedores de serviços em nuvem, após adquirirem um número suficiente de GPUs para construir HPC, conseguem oferecer capacidade computacional flexível e soluções de treinamento hospedadas para empresas de inteligência artificial com orçamento limitado. Atualmente, o mercado é principalmente dividido em três categorias de provedores de capacidade computacional em nuvem:

  1. Plataformas de computação em nuvem de grande escala representadas por fornecedores tradicionais de nuvem (AWS, Google, Azure)
  2. Plataforma de computação em nuvem de pista vertical, principalmente destinada a AI ou computação de alto desempenho.
  3. Fornecedor de inferência como serviço, que se dedica principalmente a implantar modelos já pré-treinados para ajustar ou inferir.

Novos usuários

Fornecedores de dados de treinamento

O treinamento de grandes modelos passa principalmente por três etapas: pré-treinamento, ajuste fino e aprendizado por reforço. O pré-treinamento requer uma grande quantidade de dados, enquanto o ajuste fino necessita de dados de alta qualidade. Por isso, empresas como o Google, que possuem motores de busca, e o Reddit, que possui dados de conversação de qualidade, têm recebido ampla atenção do mercado.

Alguns desenvolvedores, para não competirem com modelos grandes genéricos, optam por desenvolver em áreas específicas como finanças, saúde, química, etc., necessitando de dados de áreas específicas. Portanto, existem empresas que fornecem dados específicos para esses grandes modelos, também conhecidas como empresas de rotulagem de dados.

Para as empresas de desenvolvimento de modelos, grandes volumes de dados, dados de alta qualidade e dados específicos são as três principais demandas de dados.

A pesquisa da Microsoft acredita que, se a qualidade dos dados de um pequeno modelo de linguagem for significativamente superior à de um grande modelo de linguagem, seu desempenho não necessariamente será inferior. Na verdade, o GPT não tem uma vantagem clara em criatividade e dados, sendo seu sucesso principalmente resultado de sua aposta nessa direção. A Sequoia USA também acredita que o GPT pode não manter uma vantagem competitiva no futuro, pois não há um grande fosso de proteção nessa área, e as principais limitações vêm da obtenção de poder computacional.

De acordo com as previsões, com base no crescimento atual do modelo, todos os dados de baixa e alta qualidade se esgotarão até 2030. Assim, a indústria está explorando dados sintéticos gerados por inteligência artificial para criar dados ilimitados, restando apenas a capacidade computacional como um gargalo. Essa direção ainda está em fase de exploração e merece atenção.

Novos Conhecimentos丨AI x Crypto: Do Zero ao Topo

Fornecedor de banco de dados

Para tarefas de inferência e treino de dados de IA e aprendizado profundo, atualmente a indústria utiliza "banco de dados vetorial". O banco de dados vetorial tem como objetivo armazenar, gerenciar e indexar de forma eficiente uma enorme quantidade de dados vetoriais de alta dimensão. Ele pode armazenar dados não estruturados uniformemente na forma de "vetores", sendo adequado para o armazenamento e processamento desses vetores.

Os principais players incluem Chroma, Zilliz, Pinecone, Weaviate, entre outros. Espera-se que, à medida que a demanda por volume de dados aumente, e com a explosão de grandes modelos e aplicações em vários domínios, a demanda por Bancos de Dados Vetoriais aumente significativamente. Devido às altas barreiras tecnológicas nesse campo, os investimentos tendem a se concentrar mais em empresas maduras e com clientes.

Novos Conhecimentos丨AI x Crypto:Do Zero ao Topo

Dispositivos de borda

Ao montar um GPU HPC (cluster de computação de alto desempenho), normalmente consome-se uma grande quantidade de energia para gerar calor, sendo necessário um dispositivo de refrigeração.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 5
  • Partilhar
Comentar
0/400
TokenUnlockervip
· 22h atrás
Blockchain mortos posições longas comprar na baixa é tudo.
Ver originalResponder0
WagmiWarriorvip
· 22h atrás
Fazer dinheiro é o que importa Negociação de criptomoedas é sempre divino
Ver originalResponder0
HodlNerdvip
· 22h atrás
a significância estatística supera o ruído do mercado... o reconhecimento de padrões confirma que estamos entrando em uma fase convergente entre IA + cripto
Ver originalResponder0
CountdownToBrokevip
· 22h atrás
Oh não, a carteira vai ficar vazia de novo.
Ver originalResponder0
FundingMartyrvip
· 23h atrás
AI especulação? Não me engane.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)