گوگل کلاد «Cluster Director» را برای ساده‌سازی مدیریت زیرساخت‌های هوش مصنوعی عرضه کرد

این سرویس با اعتبارسنجی یکپارچگی شبکه و شتاب‌دهنده‌ها، امکان راه‌اندازی کلاسترهای تأییدشده را «در عرض چند دقیقه» فراهم می‌کند.

Cluster Director، زیرساخت گوگل کلاد برای مدیریت سامانه‌های با کارایی بالا، اکنون به‌صورت عمومی (GA) در دسترس قرار گرفته است؛ اقدامی که در راستای کمک به مشتریان برای پیکربندی و مدیریت ساده‌تر زیرساخت‌های هوش مصنوعی انجام می‌شود.

Cluster Director که نخستین‌بار در ماه آوریل معرفی شد، به‌عنوان یک لایه مدیریتی یکپارچه طراحی شده تا مدیریت کلاسترهای مقیاس‌بالا مبتنی بر Slurm و Kubernetes را آسان‌تر کند.

این سرویس راه‌اندازی کلاسترها را خودکار می‌کند و از طریق یک محیط واحد، راهکارهای محاسباتی، شبکه و ذخیره‌سازی گوگل کلاد را به‌صورت شهودی با هم یکپارچه می‌سازد. به‌گفته گوگل، کاربران می‌توانند کلاسترهای استاندارد و اعتبارسنجی‌شده را «در عرض چند دقیقه» بالا بیاورند.

کاربران می‌توانند از Cluster Director برای خودکارسازی عملیات سطح پایین از طریق control plane، API یا CLI استفاده کنند؛ چه برای وظایفی که با Slurm اجرا می‌شوند و چه برای ارکستریتورهای سفارشی. به‌گفته گوگل، پیش از آن‌که بارهای کاری حتی به GPU برسند، Cluster Director مجموعه‌ای از بررسی‌های سلامت و اعتبارسنجی‌های عملکردی را اجرا می‌کند تا یکپارچگی شبکه و شتاب‌دهنده‌ها تأیید شود.

در پست وبلاگ گوگل آمده است: «این سرویس ابزارهای DIY شکننده را با یک control plane مقاوم و آگاه از توپولوژی جایگزین می‌کند که کل چرخه عمر کلاسترهای Slurm را—from اولین استقرار تا هزارمین اجرای آموزش—مدیریت می‌کند.»

این راهکار از طیفی از سامانه‌ها پشتیبانی می‌کند، از جمله ماشین‌های مجازی A4X و A4X Max در گوگل کلاد که از GPUهای Blackwell انویدیا بهره می‌برند.

دیو سالواتور، مدیر محصولات رایانش شتاب‌یافته در انویدیا، می‌گوید: «[Cluster Director گوگل کلاد] مکمل توان و عملکرد پلتفرم رایانش شتاب‌یافته انویدیاست. با هم، راهکاری ساده‌تر، قدرتمندتر و مقیاس‌پذیر ارائه می‌دهیم تا مشتریان بتوانند با چالش‌های نسل بعدی محاسبات روبه‌رو شوند.»

Cluster Director اکنون به‌صورت عمومی در دسترس است، در حالی که پشتیبانی آن از Slurm روی Google Kubernetes Engine (GKE) فعلاً در مرحله پیش‌نمایش قرار دارد.

افزودن پشتیبانی از Slurm پس از آن صورت می‌گیرد که شرکت SchedMD، توسعه‌دهنده اصلی Slurm، اوایل همین هفته توسط انویدیا خریداری شد.

در پست وبلاگ گوگل آمده است: «با اجرای یک کلاستر Slurm بومی مستقیماً روی GKE، نقاط قوت هر دو گروه—پژوهشگران و تیم‌های پلتفرم—تقویت می‌شود. پژوهشگران به رابط و قابلیت‌های batch بدون مصالحه Slurm مانند sbatch و squeue که دهه‌ها تعریف‌کننده HPC بوده‌اند دسترسی دارند، در حالی که تیم‌های پلتفرم از چابکی عملیاتی GKE، شامل مقیاس‌پذیری خودکار، خودترمیمی و bin-packing، بهره‌مند می‌شوند.»