Los fabricantes de grandes modelos compiten en la tecnología de texto largo, 400,000 tokens podrían ser un nuevo punto de partida.

Los fabricantes de grandes modelos compiten por superar la capacidad de texto largo, 400,000 tokens es solo el comienzo

Los modelos grandes están ampliando continuamente su capacidad para procesar texto a una velocidad impresionante. Desde los 4000 tokens iniciales hasta los actuales 400,000 tokens, la capacidad de procesamiento de textos largos parece haberse convertido en un nuevo estándar para que los fabricantes de modelos grandes muestren su capacidad.

Actualmente, varias empresas de tecnología de modelos grandes de primer nivel, como OpenAI, Anthropic, Meta y Moonlight, están enfocándose en la expansión de la longitud del contexto como una dirección de mejora clave. Todas estas empresas son, sin excepción, favoritas del mercado de capitales. OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones, la valoración de Anthropic podría alcanzar los 30 mil millones de dólares, y Moonlight completó varias rondas de financiamiento en solo seis meses desde su fundación.

¿Cuál es el significado de que las empresas de grandes modelos valoren tanto la tecnología de texto largo? A primera vista, esto significa que el modelo puede manejar textos de entrada más largos y tiene una capacidad de lectura más fuerte. Desde las 2000 palabras de GPT-3.5 hasta las 200,000 palabras de Kimi Chat, la cantidad de lectura del modelo se ha expandido de un artículo corto a una gran obra.

Desde una perspectiva más profunda, la tecnología de texto largo está impulsando la aplicación de modelos grandes en campos profesionales como las finanzas, la justicia y la investigación científica. Estos campos requieren resumir, comprender y responder preguntas sobre documentos largos, lo que representa escenarios que necesitan una actualización inteligente.

Sin embargo, la longitud del texto no siempre es mejor. Las investigaciones muestran que no se puede igualar directamente el apoyo de modelos a entradas de contexto más largas con una mejora en los resultados. La clave radica en cómo el modelo utiliza de manera efectiva el contenido del contexto. Actualmente, la exploración de tecnologías de textos largos aún no ha alcanzado su límite, 400,000 tokens pueden ser solo un comienzo.

Los avances en la tecnología de textos largos ayudan a resolver algunos problemas que existían en los modelos grandes en sus primeras etapas, como el olvido de información importante por parte de los personajes virtuales y el análisis insuficiente en campos especializados. También es una de las tecnologías clave que impulsa la implementación en la industria, marcando la transición de los modelos grandes de LLM a Long LLM.

A través de la tecnología de texto largo, los chatbots están evolucionando hacia direcciones de especialización, personalización y profundidad. Esto podría convertirse en una palanca importante para la implementación de aplicaciones industriales y SUPER APP. Sin embargo, los escenarios de conversación de texto largo actuales aún tienen un gran margen de optimización, ya que aspectos como la actualización de datos, el control de la conversación y la precisión necesitan ser mejorados.

En el proceso de búsqueda de la capacidad de manejar textos largos, los fabricantes de modelos grandes se enfrentan al dilema del "triángulo imposible" de la longitud del texto, la atención y la potencia de cálculo. Cuanto más largo es el texto, más difícil es centrarse en la información clave; la atención es limitada, y los textos cortos son difíciles de interpretar completamente en información compleja; procesar textos largos requiere una gran cantidad de potencia de cálculo, lo que aumenta los costos.

La raíz de este dilema radica en que la mayoría de los modelos se basan en la estructura Transformer. El mecanismo de autoatención hace que la carga computacional crezca de manera cuadrática con la longitud del contexto. Actualmente, hay principalmente tres soluciones: utilizar herramientas externas para ayudar en el procesamiento, optimizar el cálculo del mecanismo de autoatención y utilizar métodos de optimización del modelo.

Aunque el "triángulo imposible" de los textos largos no tiene solución por el momento, esto también ha dejado claro la dirección de exploración de los fabricantes de modelos grandes: buscar el mejor equilibrio entre la longitud del texto, la atención y la capacidad de cálculo, para manejar suficiente información al mismo tiempo que se consideran las limitaciones de cálculo de atención y de costo de cálculo.

TOKEN3.57%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 3
  • Compartir
Comentar
0/400
ResearchChadButBrokevip
· 07-19 04:16
¿Cuánto gwei se puede obtener por 40token?
Ver originalesResponder0
FomoAnxietyvip
· 07-19 04:14
Ni más tokens pueden igualar mi esfuerzo.
Ver originalesResponder0
FalseProfitProphetvip
· 07-19 03:54
Otra gran obra de quema de capital.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)