دیپ‌سیک معماری هوش مصنوعی mHC را برای افزایش کارایی مدل‌ها معرفی کرد

پژوهشگران شرکت DeepSeek از معماری جدیدی به نام Manifold-Constrained Hyper-Connections یا mHC رونمایی کرده‌اند که با بهبود سازوکارهای یادگیری در مدل‌های هوش مصنوعی، عملکرد و پایداری آن‌ها را به‌طور محسوسی افزایش می‌دهد.

پژوهشگران آزمایشگاه هوش مصنوعی چینی DeepSeek از فناوری تازه‌ای با نام Manifold-Constrained Hyper-Connections (mHC) پرده‌برداری کرده‌اند که هدف آن ارتقای کارایی مدل‌های هوش مصنوعی، به‌ویژه مدل‌های زبانی بزرگ (LLM) است. این فناوری در قالب یک مقاله علمی معرفی شده و به‌عنوان نسخه‌ای تکامل‌یافته از مکانیزم‌های پیشین اتصال لایه‌ها در شبکه‌های عصبی مطرح می‌شود.

معماری mHC برای بهبود سازوکار موسوم به Residual Connection طراحی شده است؛ مکانیزمی که از سال ۲۰۱۵ به‌عنوان یکی از پایه‌های اصلی آموزش مدل‌های عمیق مورد استفاده قرار می‌گیرد. در این روش، سیگنال‌های یادگیری یا همان گرادیان‌ها می‌توانند بدون عبور از تمام لایه‌ها، مستقیماً بین بخش‌های مختلف شبکه جابه‌جا شوند. این ویژگی نقش مهمی در کاهش خطاهای آموزشی و پایداری فرآیند یادگیری دارد و به همین دلیل در اغلب مدل‌های زبانی بزرگ و مدل‌های بینایی ماشین استفاده می‌شود.

با این حال، تلاش‌های قبلی برای بهبود Residual Connection همواره با چالش‌هایی همراه بوده است. یکی از این تلاش‌ها، معماری Hyper-Connections بود که اگرچه برخی محدودیت‌ها را کاهش می‌داد، اما خود با مشکلات فنی و هزینه‌های محاسباتی همراه بود. معماری mHC که اکنون توسط DeepSeek معرفی شده، نسخه‌ای پیشرفته‌تر از همین ایده است و تلاش می‌کند بدون افزایش پیچیدگی، مزایای آن را حفظ کند.

نوآوری اصلی mHC در استفاده از مفهومی ریاضی به نام منیفُلد (Manifold) نهفته است. منیفلدها ساختارهایی ریاضی هستند که می‌توانند اشکال ساده یا فضاهای چندبعدی پیچیده را توصیف کنند. به گفته DeepSeek، استفاده از منیفلد در این معماری باعث می‌شود گرادیان‌ها هنگام عبور از لایه‌های مختلف شبکه، پایداری بیشتری داشته باشند و اطلاعات آموزشی با دقت بالاتری منتقل شود.

برای ارزیابی عملکرد این معماری، تیم تحقیقاتی DeepSeek سه مدل زبانی با اندازه‌های ۳، ۹ و ۲۷ میلیارد پارامتر را با استفاده از mHC آموزش داد. سپس همین مدل‌ها با استفاده از معماری Hyper-Connections نیز آموزش داده شدند. نتایج نشان داد مدل‌هایی که از mHC بهره می‌برند، در هشت بنچمارک مختلف عملکرد بهتری نسبت به نسخه‌های قبلی داشته‌اند.

از نظر سخت‌افزاری نیز mHC مزیت قابل توجهی دارد. در حالی که Hyper-Connections مصرف حافظه بالایی را به مدل تحمیل می‌کند، آزمایش‌های داخلی DeepSeek نشان می‌دهد که معماری جدید تنها حدود ۶.۲۷ درصد سربار سخت‌افزاری ایجاد می‌کند؛ رقمی که آن را برای استفاده عملی در مقیاس بزرگ مناسب‌تر می‌سازد.

پژوهشگران DeepSeek در مقاله خود تأکید کرده‌اند که درک عمیق‌تر از نقش ساختارهای توپولوژیک در فرایند یادگیری می‌تواند مسیر توسعه نسل بعدی معماری‌های پایه هوش مصنوعی را هموار کند و محدودیت‌های فعلی این حوزه را کاهش دهد.