پژوهشگران آزمایشگاه هوش مصنوعی چینی DeepSeek از فناوری تازهای با نام Manifold-Constrained Hyper-Connections (mHC) پردهبرداری کردهاند که هدف آن ارتقای کارایی مدلهای هوش مصنوعی، بهویژه مدلهای زبانی بزرگ (LLM) است. این فناوری در قالب یک مقاله علمی معرفی شده و بهعنوان نسخهای تکاملیافته از مکانیزمهای پیشین اتصال لایهها در شبکههای عصبی مطرح میشود.
معماری mHC برای بهبود سازوکار موسوم به Residual Connection طراحی شده است؛ مکانیزمی که از سال ۲۰۱۵ بهعنوان یکی از پایههای اصلی آموزش مدلهای عمیق مورد استفاده قرار میگیرد. در این روش، سیگنالهای یادگیری یا همان گرادیانها میتوانند بدون عبور از تمام لایهها، مستقیماً بین بخشهای مختلف شبکه جابهجا شوند. این ویژگی نقش مهمی در کاهش خطاهای آموزشی و پایداری فرآیند یادگیری دارد و به همین دلیل در اغلب مدلهای زبانی بزرگ و مدلهای بینایی ماشین استفاده میشود.
با این حال، تلاشهای قبلی برای بهبود Residual Connection همواره با چالشهایی همراه بوده است. یکی از این تلاشها، معماری Hyper-Connections بود که اگرچه برخی محدودیتها را کاهش میداد، اما خود با مشکلات فنی و هزینههای محاسباتی همراه بود. معماری mHC که اکنون توسط DeepSeek معرفی شده، نسخهای پیشرفتهتر از همین ایده است و تلاش میکند بدون افزایش پیچیدگی، مزایای آن را حفظ کند.
نوآوری اصلی mHC در استفاده از مفهومی ریاضی به نام منیفُلد (Manifold) نهفته است. منیفلدها ساختارهایی ریاضی هستند که میتوانند اشکال ساده یا فضاهای چندبعدی پیچیده را توصیف کنند. به گفته DeepSeek، استفاده از منیفلد در این معماری باعث میشود گرادیانها هنگام عبور از لایههای مختلف شبکه، پایداری بیشتری داشته باشند و اطلاعات آموزشی با دقت بالاتری منتقل شود.
برای ارزیابی عملکرد این معماری، تیم تحقیقاتی DeepSeek سه مدل زبانی با اندازههای ۳، ۹ و ۲۷ میلیارد پارامتر را با استفاده از mHC آموزش داد. سپس همین مدلها با استفاده از معماری Hyper-Connections نیز آموزش داده شدند. نتایج نشان داد مدلهایی که از mHC بهره میبرند، در هشت بنچمارک مختلف عملکرد بهتری نسبت به نسخههای قبلی داشتهاند.
از نظر سختافزاری نیز mHC مزیت قابل توجهی دارد. در حالی که Hyper-Connections مصرف حافظه بالایی را به مدل تحمیل میکند، آزمایشهای داخلی DeepSeek نشان میدهد که معماری جدید تنها حدود ۶.۲۷ درصد سربار سختافزاری ایجاد میکند؛ رقمی که آن را برای استفاده عملی در مقیاس بزرگ مناسبتر میسازد.
پژوهشگران DeepSeek در مقاله خود تأکید کردهاند که درک عمیقتر از نقش ساختارهای توپولوژیک در فرایند یادگیری میتواند مسیر توسعه نسل بعدی معماریهای پایه هوش مصنوعی را هموار کند و محدودیتهای فعلی این حوزه را کاهش دهد.











ارسال دیدگاه