شركات النماذج الكبيرة تتنافس على تحقيق اختراقات في القدرة على معالجة النصوص الطويلة، 400 ألف توكن ليست سوى البداية
تقوم النماذج الكبيرة بتمديد قدرتها على معالجة النصوص بسرعة مذهلة. من 4000 توكن في البداية إلى 400000 توكن اليوم، يبدو أن قدرة معالجة النصوص الطويلة أصبحت معيارًا جديدًا يُظهر قوة الشركات المصنعة للنماذج الكبيرة.
حاليًا، قامت العديد من الشركات الرائدة في تكنولوجيا النماذج الكبيرة مثل OpenAI وAnthropic وMeta و月之暗面 بتوسيع طول السياق كاتجاه رئيسي للتحديث. هذه الشركات بلا استثناء هي مفضلة في سوق رأس المال. حصلت OpenAI على استثمار يقارب 12 مليار دولار، ومن المحتمل أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت 月之暗面 عدة جولات من التمويل بعد ستة أشهر من تأسيسها.
لماذا تعطي شركات النماذج الكبيرة أهمية كبيرة لتقنية النصوص الطويلة؟ يبدو أن هذا يعني أن النماذج يمكنها معالجة نصوص إدخال أطول، مما يزيد من قدرتها على القراءة. من 2000 كلمة في GPT-3.5 إلى 200000 كلمة في Kimi Chat، تمتد كمية القراءة للنموذج من مقال قصير إلى رواية طويلة.
من منظور أعمق، فإن تقنية النصوص الطويلة تدفع نماذج الذكاء الاصطناعي الكبيرة نحو التطبيق في مجالات متخصصة مثل المالية والعدالة والبحث العلمي. هذه المجالات تحتاج إلى تلخيص وفهم واستفسار حول الوثائق الطويلة، وهي مشاهد تتطلب ترقية ذكية عاجلة.
ومع ذلك، فإن طول النص ليس دائماً ما يكون أفضل. تظهر الدراسات أن دعم النموذج لإدخال سياق أطول لا يعني بالضرورة تحسين النتائج. المفتاح هو كيفية استفادة النموذج بشكل فعال من محتوى السياق. حتى الآن، لا تزال استكشاف تقنيات النصوص الطويلة بعيدة عن الوصول إلى الحدود القصوى، وقد تكون 400000 توكن مجرد بداية.
تساعد突破ات تقنية النصوص الطويلة في حل بعض المشاكل التي كانت موجودة في النماذج الكبيرة في المراحل المبكرة، مثل نسيان الشخصيات الافتراضية لمعلومات مهمة، وعدم كفاية التحليل في المجالات المتخصصة. إنها أيضًا واحدة من التقنيات الرئيسية التي تدفع تطبيقات الصناعة إلى أرض الواقع، وتُعتبر علامة على دخول النماذج الكبيرة من مرحلة LLM إلى مرحلة Long LLM.
من خلال تقنية النصوص الطويلة، تتطور روبوتات المحادثة نحو التخصص والتخصيص والعمق. قد تصبح هذه أداة مهمة لتحفيز تطبيقات الصناعة وظهور التطبيقات الفائقة. ومع ذلك، لا تزال هناك مساحة كبيرة لتحسين سيناريوهات المحادثة النصية الطويلة الحالية، مثل تحديث البيانات، والتحكم في المحادثة، والدقة، والتي تحتاج جميعها إلى مزيد من التحسين.
في سعيهم لتحسين قدرة النماذج الكبيرة على معالجة النصوص الطويلة، تواجه الشركات المصنعة تحدي "مثلث المستحيل" المتمثل في طول النص، والانتباه، والقدرة الحاسوبية. كلما طال النص، أصبح من الصعب التركيز على المعلومات الرئيسية؛ والانتباه له قيود، والنصوص القصيرة يصعب فهم المعلومات المعقدة بشكل كامل؛ ومعالجة النصوص الطويلة تتطلب قدرة حاسوبية كبيرة مما يزيد من التكاليف.
تعود جذور هذه الأزمة إلى أن معظم النماذج تعتمد على هيكل Transformer. حيث تتزايد كمية الحسابات المطلوبة بشكل متسارع مع طول السياق بسبب آلية الانتباه الذاتي. هناك حاليًا ثلاث حلول رئيسية: الاستعانة بأدوات خارجية للمساعدة في المعالجة، تحسين حسابات آلية الانتباه الذاتي، واستخدام طرق تحسين النماذج.
على الرغم من أن "مثلث الاستحالة" للنصوص الطويلة ليس له حل في الوقت الحالي، إلا أن هذا يحدد بوضوح اتجاه استكشاف الشركات المصنعة للنماذج الكبيرة: البحث عن النقطة المثلى للتوازن بين طول النص، والانتباه، والقدرة الحاسوبية، لمعالجة معلومات كافية مع مراعاة قيود حساب الانتباه وتكاليف القدرة الحاسوبية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 8
أعجبني
8
3
مشاركة
تعليق
0/400
ResearchChadButBroke
· 07-19 04:16
كم من gwei يمكن استبداله بـ 40token؟
شاهد النسخة الأصليةرد0
FomoAnxiety
· 07-19 04:14
لا يمكن لأي عدد من الرموز أن يعوض كبدى.
شاهد النسخة الأصليةرد0
FalseProfitProphet
· 07-19 03:54
مرة أخرى، إنها مسرحية حرق الأموال من قبل رأس المال
تتنافس شركات نماذج الذكاء الاصطناعي على تقنية النصوص الطويلة، و400000 توكن قد تكون نقطة انطلاق جديدة
شركات النماذج الكبيرة تتنافس على تحقيق اختراقات في القدرة على معالجة النصوص الطويلة، 400 ألف توكن ليست سوى البداية
تقوم النماذج الكبيرة بتمديد قدرتها على معالجة النصوص بسرعة مذهلة. من 4000 توكن في البداية إلى 400000 توكن اليوم، يبدو أن قدرة معالجة النصوص الطويلة أصبحت معيارًا جديدًا يُظهر قوة الشركات المصنعة للنماذج الكبيرة.
حاليًا، قامت العديد من الشركات الرائدة في تكنولوجيا النماذج الكبيرة مثل OpenAI وAnthropic وMeta و月之暗面 بتوسيع طول السياق كاتجاه رئيسي للتحديث. هذه الشركات بلا استثناء هي مفضلة في سوق رأس المال. حصلت OpenAI على استثمار يقارب 12 مليار دولار، ومن المحتمل أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت 月之暗面 عدة جولات من التمويل بعد ستة أشهر من تأسيسها.
لماذا تعطي شركات النماذج الكبيرة أهمية كبيرة لتقنية النصوص الطويلة؟ يبدو أن هذا يعني أن النماذج يمكنها معالجة نصوص إدخال أطول، مما يزيد من قدرتها على القراءة. من 2000 كلمة في GPT-3.5 إلى 200000 كلمة في Kimi Chat، تمتد كمية القراءة للنموذج من مقال قصير إلى رواية طويلة.
من منظور أعمق، فإن تقنية النصوص الطويلة تدفع نماذج الذكاء الاصطناعي الكبيرة نحو التطبيق في مجالات متخصصة مثل المالية والعدالة والبحث العلمي. هذه المجالات تحتاج إلى تلخيص وفهم واستفسار حول الوثائق الطويلة، وهي مشاهد تتطلب ترقية ذكية عاجلة.
ومع ذلك، فإن طول النص ليس دائماً ما يكون أفضل. تظهر الدراسات أن دعم النموذج لإدخال سياق أطول لا يعني بالضرورة تحسين النتائج. المفتاح هو كيفية استفادة النموذج بشكل فعال من محتوى السياق. حتى الآن، لا تزال استكشاف تقنيات النصوص الطويلة بعيدة عن الوصول إلى الحدود القصوى، وقد تكون 400000 توكن مجرد بداية.
تساعد突破ات تقنية النصوص الطويلة في حل بعض المشاكل التي كانت موجودة في النماذج الكبيرة في المراحل المبكرة، مثل نسيان الشخصيات الافتراضية لمعلومات مهمة، وعدم كفاية التحليل في المجالات المتخصصة. إنها أيضًا واحدة من التقنيات الرئيسية التي تدفع تطبيقات الصناعة إلى أرض الواقع، وتُعتبر علامة على دخول النماذج الكبيرة من مرحلة LLM إلى مرحلة Long LLM.
من خلال تقنية النصوص الطويلة، تتطور روبوتات المحادثة نحو التخصص والتخصيص والعمق. قد تصبح هذه أداة مهمة لتحفيز تطبيقات الصناعة وظهور التطبيقات الفائقة. ومع ذلك، لا تزال هناك مساحة كبيرة لتحسين سيناريوهات المحادثة النصية الطويلة الحالية، مثل تحديث البيانات، والتحكم في المحادثة، والدقة، والتي تحتاج جميعها إلى مزيد من التحسين.
في سعيهم لتحسين قدرة النماذج الكبيرة على معالجة النصوص الطويلة، تواجه الشركات المصنعة تحدي "مثلث المستحيل" المتمثل في طول النص، والانتباه، والقدرة الحاسوبية. كلما طال النص، أصبح من الصعب التركيز على المعلومات الرئيسية؛ والانتباه له قيود، والنصوص القصيرة يصعب فهم المعلومات المعقدة بشكل كامل؛ ومعالجة النصوص الطويلة تتطلب قدرة حاسوبية كبيرة مما يزيد من التكاليف.
تعود جذور هذه الأزمة إلى أن معظم النماذج تعتمد على هيكل Transformer. حيث تتزايد كمية الحسابات المطلوبة بشكل متسارع مع طول السياق بسبب آلية الانتباه الذاتي. هناك حاليًا ثلاث حلول رئيسية: الاستعانة بأدوات خارجية للمساعدة في المعالجة، تحسين حسابات آلية الانتباه الذاتي، واستخدام طرق تحسين النماذج.
على الرغم من أن "مثلث الاستحالة" للنصوص الطويلة ليس له حل في الوقت الحالي، إلا أن هذا يحدد بوضوح اتجاه استكشاف الشركات المصنعة للنماذج الكبيرة: البحث عن النقطة المثلى للتوازن بين طول النص، والانتباه، والقدرة الحاسوبية، لمعالجة معلومات كافية مع مراعاة قيود حساب الانتباه وتكاليف القدرة الحاسوبية.