Cluster Director، زیرساخت گوگل کلاد برای مدیریت سامانههای با کارایی بالا، اکنون بهصورت عمومی (GA) در دسترس قرار گرفته است؛ اقدامی که در راستای کمک به مشتریان برای پیکربندی و مدیریت سادهتر زیرساختهای هوش مصنوعی انجام میشود.
Cluster Director که نخستینبار در ماه آوریل معرفی شد، بهعنوان یک لایه مدیریتی یکپارچه طراحی شده تا مدیریت کلاسترهای مقیاسبالا مبتنی بر Slurm و Kubernetes را آسانتر کند.
این سرویس راهاندازی کلاسترها را خودکار میکند و از طریق یک محیط واحد، راهکارهای محاسباتی، شبکه و ذخیرهسازی گوگل کلاد را بهصورت شهودی با هم یکپارچه میسازد. بهگفته گوگل، کاربران میتوانند کلاسترهای استاندارد و اعتبارسنجیشده را «در عرض چند دقیقه» بالا بیاورند.
کاربران میتوانند از Cluster Director برای خودکارسازی عملیات سطح پایین از طریق control plane، API یا CLI استفاده کنند؛ چه برای وظایفی که با Slurm اجرا میشوند و چه برای ارکستریتورهای سفارشی. بهگفته گوگل، پیش از آنکه بارهای کاری حتی به GPU برسند، Cluster Director مجموعهای از بررسیهای سلامت و اعتبارسنجیهای عملکردی را اجرا میکند تا یکپارچگی شبکه و شتابدهندهها تأیید شود.
در پست وبلاگ گوگل آمده است: «این سرویس ابزارهای DIY شکننده را با یک control plane مقاوم و آگاه از توپولوژی جایگزین میکند که کل چرخه عمر کلاسترهای Slurm را—from اولین استقرار تا هزارمین اجرای آموزش—مدیریت میکند.»
این راهکار از طیفی از سامانهها پشتیبانی میکند، از جمله ماشینهای مجازی A4X و A4X Max در گوگل کلاد که از GPUهای Blackwell انویدیا بهره میبرند.
دیو سالواتور، مدیر محصولات رایانش شتابیافته در انویدیا، میگوید: «[Cluster Director گوگل کلاد] مکمل توان و عملکرد پلتفرم رایانش شتابیافته انویدیاست. با هم، راهکاری سادهتر، قدرتمندتر و مقیاسپذیر ارائه میدهیم تا مشتریان بتوانند با چالشهای نسل بعدی محاسبات روبهرو شوند.»
Cluster Director اکنون بهصورت عمومی در دسترس است، در حالی که پشتیبانی آن از Slurm روی Google Kubernetes Engine (GKE) فعلاً در مرحله پیشنمایش قرار دارد.
افزودن پشتیبانی از Slurm پس از آن صورت میگیرد که شرکت SchedMD، توسعهدهنده اصلی Slurm، اوایل همین هفته توسط انویدیا خریداری شد.
در پست وبلاگ گوگل آمده است: «با اجرای یک کلاستر Slurm بومی مستقیماً روی GKE، نقاط قوت هر دو گروه—پژوهشگران و تیمهای پلتفرم—تقویت میشود. پژوهشگران به رابط و قابلیتهای batch بدون مصالحه Slurm مانند sbatch و squeue که دههها تعریفکننده HPC بودهاند دسترسی دارند، در حالی که تیمهای پلتفرم از چابکی عملیاتی GKE، شامل مقیاسپذیری خودکار، خودترمیمی و bin-packing، بهرهمند میشوند.»











ارسال دیدگاه