Виробники великих моделей змагаються у подоланні здатності до довгих текстів, 400000 токенів лише початок
Великі моделі постійно розширюють свою здатність обробляти текст із вражаючою швидкістю. Від початкових 4000 токенів до сьогоднішніх 400000 токенів, здатність обробки довгих текстів, здається, стала новим стандартом для постачальників великих моделей, щоб продемонструвати свою силу.
Наразі в Україні та за кордоном декілька провідних компаній у сфері технологій великих моделей, таких як OpenAI, Anthropic, Meta та Moonlight, зосереджуються на розширенні довжини контексту як пріоритетному напрямку оновлення. Всі ці компанії є улюбленцями капітального ринку. OpenAI отримала інвестиції близько 12 мільярдів доларів, оцінка Anthropic може досягати 30 мільярдів доларів, а Moonlight завершила кілька раундів фінансування всього через півроку після свого заснування.
Чому компанії з великими моделями так серйозно ставляться до технології довгих текстів? На перший погляд, це означає, що модель може обробляти довші вхідні тексти, має кращу здатність до читання. Від 2000 слів у GPT-3.5 до 200000 слів у Kimi Chat, кількість слів, які модель може прочитати, розширюється з короткого твору до великої епопеї.
З більш глибокої точки зору, технології довгих текстів сприяють застосуванню великих моделей у професійних сферах, таких як фінанси, юстиція, наукові дослідження тощо. Ці сфери потребують підсумовування, розуміння та відповідей на запитання довгих документів, що є терміновими сценаріями для інтелектуального оновлення.
Проте, довжина тексту не завжди є кращою. Дослідження показують, що між підтримкою моделі більш довгих вхідних контекстів і покращенням результатів не можна ставити знак рівності. Ключовим є те, як модель ефективно використовує контент контексту. Наразі технологічні дослідження довгих текстів ще далеко не досягли межі, 400 тисяч токенів можуть бути лише початком.
Прорив у технології довгих текстів допомагає вирішити деякі проблеми, що існували на початкових етапах великих моделей, такі як забування важливої інформації віртуальними персонажами, недостатній аналіз у професійних сферах тощо. Це також одна з ключових технологій, що сприяє впровадженню промислових застосувань, що знаменує перехід великих моделей з LLM до Long LLM.
Завдяки технології довгого тексту, розмовні роботи розвиваються у напрямку професіоналізації, персоналізації та поглиблення. Це може стати важливим інструментом для впровадження галузевих додатків і супер-додатків. Проте, наразі в сценах розмов з довгим текстом ще є великий простір для оптимізації, такі як оновлення даних, контроль розмови, точність тощо, які потребують подальшого вдосконалення.
У процесі досягнення здатності до обробки довгих текстів виробники великих моделей стикаються з "неможливим трикутником": довжина тексту, увага та обчислювальна потужність. Чим довший текст, тим важче зосередитися на ключовій інформації; увага має обмеження, а короткі тексти важко повністю інтерпретувати складну інформацію; обробка довгих текстів вимагає великої обчислювальної потужності, що підвищує витрати.
Корінь цієї проблеми полягає в тому, що більшість моделей базуються на структурі Transformer. Механізм самостійної уваги призводить до зростання обсягу обчислень у квадратній залежності від довжини контексту. Наразі існує три основні рішення: використання зовнішніх інструментів для допомоги в обробці, оптимізація обчислень механізму самостійної уваги, застосування методів оптимізації моделей.
Хоча "неможливий трикутник" для довгих текстів наразі не має рішення, це також чітко визначає напрямок досліджень виробників великих моделей: шукати оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб обробляти достатню кількість інформації, одночасно враховуючи обчислювальні витрати та обмеження уваги.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
8 лайків
Нагородити
8
3
Поділіться
Прокоментувати
0/400
ResearchChadButBroke
· 07-19 04:16
40token може обмінятися на скільки gwei?
Переглянути оригіналвідповісти на0
FomoAnxiety
· 07-19 04:14
Навіть більше токенів не зрівняються з моєю печінкою.
Виробники великих моделей змагаються за технології довгих текстів, 400 000 токенів можуть стати новою відправною точкою.
Виробники великих моделей змагаються у подоланні здатності до довгих текстів, 400000 токенів лише початок
Великі моделі постійно розширюють свою здатність обробляти текст із вражаючою швидкістю. Від початкових 4000 токенів до сьогоднішніх 400000 токенів, здатність обробки довгих текстів, здається, стала новим стандартом для постачальників великих моделей, щоб продемонструвати свою силу.
Наразі в Україні та за кордоном декілька провідних компаній у сфері технологій великих моделей, таких як OpenAI, Anthropic, Meta та Moonlight, зосереджуються на розширенні довжини контексту як пріоритетному напрямку оновлення. Всі ці компанії є улюбленцями капітального ринку. OpenAI отримала інвестиції близько 12 мільярдів доларів, оцінка Anthropic може досягати 30 мільярдів доларів, а Moonlight завершила кілька раундів фінансування всього через півроку після свого заснування.
Чому компанії з великими моделями так серйозно ставляться до технології довгих текстів? На перший погляд, це означає, що модель може обробляти довші вхідні тексти, має кращу здатність до читання. Від 2000 слів у GPT-3.5 до 200000 слів у Kimi Chat, кількість слів, які модель може прочитати, розширюється з короткого твору до великої епопеї.
З більш глибокої точки зору, технології довгих текстів сприяють застосуванню великих моделей у професійних сферах, таких як фінанси, юстиція, наукові дослідження тощо. Ці сфери потребують підсумовування, розуміння та відповідей на запитання довгих документів, що є терміновими сценаріями для інтелектуального оновлення.
Проте, довжина тексту не завжди є кращою. Дослідження показують, що між підтримкою моделі більш довгих вхідних контекстів і покращенням результатів не можна ставити знак рівності. Ключовим є те, як модель ефективно використовує контент контексту. Наразі технологічні дослідження довгих текстів ще далеко не досягли межі, 400 тисяч токенів можуть бути лише початком.
Прорив у технології довгих текстів допомагає вирішити деякі проблеми, що існували на початкових етапах великих моделей, такі як забування важливої інформації віртуальними персонажами, недостатній аналіз у професійних сферах тощо. Це також одна з ключових технологій, що сприяє впровадженню промислових застосувань, що знаменує перехід великих моделей з LLM до Long LLM.
Завдяки технології довгого тексту, розмовні роботи розвиваються у напрямку професіоналізації, персоналізації та поглиблення. Це може стати важливим інструментом для впровадження галузевих додатків і супер-додатків. Проте, наразі в сценах розмов з довгим текстом ще є великий простір для оптимізації, такі як оновлення даних, контроль розмови, точність тощо, які потребують подальшого вдосконалення.
У процесі досягнення здатності до обробки довгих текстів виробники великих моделей стикаються з "неможливим трикутником": довжина тексту, увага та обчислювальна потужність. Чим довший текст, тим важче зосередитися на ключовій інформації; увага має обмеження, а короткі тексти важко повністю інтерпретувати складну інформацію; обробка довгих текстів вимагає великої обчислювальної потужності, що підвищує витрати.
Корінь цієї проблеми полягає в тому, що більшість моделей базуються на структурі Transformer. Механізм самостійної уваги призводить до зростання обсягу обчислень у квадратній залежності від довжини контексту. Наразі існує три основні рішення: використання зовнішніх інструментів для допомоги в обробці, оптимізація обчислень механізму самостійної уваги, застосування методів оптимізації моделей.
Хоча "неможливий трикутник" для довгих текстів наразі не має рішення, це також чітко визначає напрямок досліджень виробників великих моделей: шукати оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб обробляти достатню кількість інформації, одночасно враховуючи обчислювальні витрати та обмеження уваги.