منتشر شده در رسانه های چینی
ترجمه مجید افسر
مجله جنوب جهانی


در دوران کنونی که رقابت بر سر قدرت محاسباتی هوش مصنوعی به مرحله‌ای سیستماتیک و بنیادین رسیده، پارادایم «قانون مور» در عملکرد پردازنده‌های تک‌کارت با ظهور انقلاب‌های معماری در حال بازسازی است. در بحبوحه‌ی تشدید تحریم‌های تراشه‌ای ایالات متحده علیه چین، ظهور ابرگره CloudMatrix 384 هواوی نه تنها با قدرت محاسباتی ۳۰۰ پتافلوپس، حدود ۷۰ درصد از سیستم پرچم‌دار NVL72 انویدیا پیشی گرفته، بلکه با به‌کارگیری «معماری کاملاً همتا» راهی برای عبور از موانع سنتی قدرت محاسباتی و شکستن «دیوار حافظه» و «دیوار ارتباطی» با استفاده از فناوری ارتباطات نوری گشوده است.
اضطراب جن‌سن هوانگ و دگرگونی اکوسیستم هوش مصنوعی چین
جن‌سن هوانگ، مدیرعامل انویدیا، با ابراز نگرانی خود، تحولات عمیق این صنعت را تأیید می‌کند: اکوسیستم قدرت محاسباتی هوش مصنوعی در چین از یک رویکرد «نقطه‌ای» به یک «ارتقاء سیستماتیک» در حال گذار است. هواوی با نوآوری هم‌زمان در حوزه‌های محاسبات، ذخیره‌سازی و شبکه، توانسته کارایی خوشه‌ای تراشه‌های بومی Ascend را به حداکثر برساند. وجود گذرگاه‌های ارتباطی پرسرعت و قابلیت گسترش تا ده‌ها هزار کارت، مستقیماً به چالش‌های اساسی آموزش مدل‌های بزرگ پاسخ می‌دهد. اهمیت عمیق‌تر این دستاورد در آن است که ابرگره CloudMatrix 384 هواوی نه تنها از آموزش مدل Pangu Ultra MoE با حدود یک تریلیون پارامتر و استنتاج DeepSeek پشتیبانی می‌کند، بلکه خودکفایی کامل زنجیره تأمین قدرت محاسباتی بومی را تأیید می‌نماید. به‌کارگیری مجدد فناوری‌های برتر سنتی مانند ارتباطات نوری، مسیر منحصربه‌فرد چین را در نوآوری سیستماتیک برجسته می‌سازد.
«نبرد ابرگره‌ها» اساساً تغییر پارادایم قدرت محاسباتی از صرف انباشت سخت‌افزار به بازتعریف معماری است. هنگامی که تحریم‌ها اندیشه‌های انقلابی نظیر «جبران فیزیک با ریاضیات» و «جبران غیر مور با مور» را تحمیل می‌کنند، نقطه ثقل رقابت جهانی هوش مصنوعی تدریجاً به سمتی تغییر می‌یابد که بتواند با مهندسی سیستم، شکاف‌های فناورانه تک‌نقطه‌ای را جبران کند. این دقیقاً همان «خرد بقا» است که شرکت‌های چینی تحت فشار تحریم‌ها به آن دست یافته‌اند.
نگرانی‌های فزاینده جن‌سن هوانگ
هر کس که تحولات صنعت هوش مصنوعی را دنبال می‌کند، می‌تواند نگرانی فزاینده جن‌سن هوانگ، رهبر امپراتوری «قدرت محاسباتی» انویدیا را درک کند؛ وی اخیراً مکرراً از «چین» و «هواوی» سخن می‌گوید.
هوانگ اخیراً در نمایشگاه کامپیوتکس تایپه اظهار داشت: «چین عملکردی فوق‌العاده داشته است؛ ۵۰ درصد از محققان هوش مصنوعی جهان چینی هستند. شما نمی‌توانید آن‌ها را متوقف کنید و نمی‌توانید توسعه هوش مصنوعی آن‌ها را متوقف کنید. هرکس که تصور می‌کند با یک حرکت می‌تواند توانایی چین را در توسعه هوش مصنوعی قطع کند، قطعاً ناآگاه است.»
در آوریل سال جاری، دولت ایالات متحده مجدداً تراشه H20 «نسخه ویژه چین» انویدیا را تحریم کرد. بلافاصله پس از این اعلام، هوانگ کت چرمی خود را با کت و شلوار رسمی عوض کرد و به چین پرواز کرد؛ این دومین سفر وی به چین در سه ماه اخیر بود. در دیدارهایش با مقامات دولتی، هوانگ بارها بر اهمیت بازار چین تأکید کرد و ابراز امیدواری نمود که همکاری با چین ادامه یابد.
جدیدترین دور تحریم‌ها باعث شده انویدیا ۵.۵ میلیارد دلار زیان موجودی کالا را ثبت کند، که به گفته هوانگ «عمیقاً او را آزار داده است.»
اما اگر صرفاً ده‌ها میلیارد دلار زیان باشد، این برای انویدیا «کمرشکن» نیست. این غول فناوری با ارزش بیش از ۳ تریلیون دلار، در موج هوش مصنوعی ثروت هنگفتی به دست آورده است. درآمد مالی سال ۲۰۲۵ آن به ۱۳۰.۵ میلیارد دلار رسید که ۱۱۴ درصد نسبت به سال قبل افزایش داشت؛ سود خالص به ۷۲.۹ میلیارد دلار رسید که ۱۴۵ درصد نسبت به سال قبل رشد نشان می‌داد؛ و حاشیه سود ناخالص به ۷۵ درصد خیره‌کننده رسید.
آنچه واقعاً هوانگ را نگران می‌کند، پیشرفت سریع فناوری خودکفای چین تحت فشار تحریم‌های آمریکاست. خندق‌های کلیدی انویدیا تنها به سخت‌افزار (پروسسورهای کارت ویدیو یا گرافیک کارت) GPU محدود نمی‌شود، بلکه شامل پلتفرم محاسبات موازی CUDA و مدل برنامه‌نویسی آن، و همچنین فناوری ارتباطات پرسرعت NVLink است. در رقابت‌های تک‌نقطه‌ای، شرکت‌های چینی شاید نتوانند جایگاه انویدیا را به چالش بکشند، اما در رقابت سیستماتیک، وضعیت لزوماً چنین نیست.
اخیراً، هواوی به تفصیل فناوری ابرگره CloudMatrix 384 خود را معرفی کرده است. این فناوری که از تراشه‌های بومی Ascend بهره می‌برد، در ابعاد کلیدی نظیر مقیاس قدرت محاسباتی، کارایی آموزش و استنتاج، و قابلیت اطمینان از سیستم NVL72 انویدیا پیشی گرفته است. جوهر این پیشرفت در آن است که هواوی از رقابت بر سر قدرت محاسباتی تک‌کارت فراتر رفته و با نوآوری هم‌زمان در محاسبات، ذخیره‌سازی، شبکه و معماری، محدودیت‌های سخت‌افزاری و فرآیند ساخت تراشه را جبران کرده و توانایی تراشه و سیستم را به حداکثر رسانده است.
جایگزین چینی برای انویدیا و نگرانی‌های هوانگ
ایجاد یک جایگزین چینی برای انویدیا بیشترین نگرانی را برای هوانگ به ارمغان آورده است. این امر نه تنها می‌تواند به زیان دائمی شرکت وی در چین منجر شود، بلکه ممکن است پایه‌های حکمرانی «امپراتوری قدرت محاسباتی» آن را نیز متزلزل سازد. وی به دولت ایالات متحده هشدار می‌دهد: «پلتفرمی که توسعه‌دهندگان را به خود جذب کند، در نهایت پیروز خواهد شد. کنترل صادرات باید پلتفرم‌های آمریکایی را تقویت کند، نه اینکه نیمی از استعدادهای هوش مصنوعی جهان را به سمت رقبا سوق دهد.»
با مشاهده پیشرفت مجدد چین، سیاست‌مداران آمریکایی نیز نگران هستند، اما آشکارا به درخواست هوانگ برای کاهش محدودیت‌ها توجهی نمی‌کنند. در حالی که صادرات به چین را به شدت محدود کرده‌اند، وزارت بازرگانی آمریکا اخیراً تلاش کرده است تا تراشه‌های Ascend هواوی را در سراسر جهان تحریم کند و همچنین غول‌های EDA را مجبور به قطع صادرات به چین نماید. اما همان‌طور که هوانگ گفت، این تنها توانایی شرکت‌های چینی را برای بقا در شرایط دشوار فعال می‌کند.
در آوریل امسال، در حالی که ایالات متحده عرضه H20 را به چین متوقف کرد، هواوی کلود به عنوان اولین شرکت، ابرگره CloudMatrix 384 را در ووهو به کار گرفت و سپس آن را در گویان و اولانچاب تجاری‌سازی کرد. منابع داخلی آن را «نوآوری در سطح بمب هسته‌ای» توصیف کردند و اعلام نمودند که در نیمه اول سال جاری، ده‌ها هزار کارت در مقیاس بزرگ راه‌اندازی خواهد شد، با هدف «پایان دادن به نگرانی‌های صنعت در مورد قدرت محاسباتی». اخیراً هواوی مجدداً اعلام کرد که با موفقیت آموزش کامل مدل MoE با حدود یک تریلیون پارامتر را بر روی پلتفرم Ascend انجام داده است و سیستم آموزش خوشه‌ای از نظر عملکرد در سطح جهانی پیشرو است و این امر بیش از پیش توانایی نوآوری مستقل زیرساخت هوش مصنوعی بومی را تأیید می‌کند.
«چهار سال پیش، سهم بازار انویدیا در چین به ۹۵ درصد می‌رسید، اما امروز تنها ۵۰ درصد است. اگر ما در چین رقابت نکنیم و اجازه دهیم چین پلتفرم‌های جدیدی توسعه دهد، اکوسیستم غنی ایجاد کند و آن‌ها آمریکایی نباشند، هنگام ترویج فناوری هوش مصنوعی در سراسر جهان، فناوری و رهبری آن‌ها به سراسر جهان گسترش خواهد یافت.» می‌توان دید که احساس اضطراب هوانگ روز به روز بیشتر می‌شود، اما سیاست‌مداران آمریکایی همچنان یکدنده هستند و صنعت نیز به تدریج علاقه خود را به سخنان هوانگ از دست می‌دهد.
اکنون، پرسش جالب‌تر این است که هواوی چگونه بدون دسترسی به فرآیندهای پیشرفته، با ابرگره از انویدیا پیشی گرفته است؟
«بمب محاسباتی» هواوی
در فیلم «ظهور ناگهانی»، صحنه‌ای وجود دارد که در آن فنگ شی، فرمانده کل پایگاه هسته‌ای شمال غربی، با کارشناس بازگشته از خارج از کشور، لو گوانگدا، در بیابان گبی به گفتگو می‌نشیند. فنگ شی تجربه سال‌های قبل را شرح می‌دهد: «در میدان جنگ کره، ما یک اسیر آمریکایی گرفتیم، یک سرباز ساده، که جرأت کرد در مقابل من فریاد بزند که یک بمب اتمی به ما پرتاب کند تا ما را تحت عمل جراحی قرار دهد.»
فنگ شی با هیجان گفت: «اگر سلاح‌ها عقب‌افتاده باشند، تحقیر می‌شوید. اما آیا ما تسلیم شدیم؟»
در آن زمان، اتحاد جماهیر شوروی به طور ناگهانی و بدون هیچ نشانه‌ای توافق را قطع کرد و تمامی کارشناسانی که کمک فناوری ارائه می‌کردند را فراخواند، در حالی که ایالات متحده تحریم‌های فناوری علیه چین اعمال نمود. فیلم نشان می‌دهد که در شرایط عدم وجود رایانه، کارشناسان ما تصمیم گرفتند از تاکتیک «دریای انسانی» استفاده کنند و با محاسبه بی‌وقفه شبانه‌روز با چرتکه، در نهایت پس از بیش از یک سال به پاسخ مورد نظر دست یافتند و به توسعه بمب اتمی کمک کردند.
شصت سال بعد، ایالات متحده همچنان تلاش می‌کند با تحریم‌های فناوری، توسعه صنعت هوش مصنوعی چین را متوقف کند. این وضعیت واقعاً نگرانی‌های محاسباتی برای چین ایجاد کرده است، زیرا قانون مقیاس‌پذیری مدل‌های بزرگ همچنان معتبر است. پارامترها و داده‌های بیشتر، به عملکرد و هوش قوی‌تری منجر می‌شوند، که به نوبه خود، تقاضا برای قدرت محاسباتی، حافظه نمایش و پهنای باند را به صورت نمایی افزایش می‌دهد.
اما حتی اگر فرآیند ساخت تراشه در کوتاه‌مدت نتواند پیشرفت کند، چین بی‌عمل ننشسته است. با بزرگ‌تر شدن مدل‌ها، مزیت قدرت محاسباتی تک‌کارت نسبتاً کاهش می‌یابد و راه‌حل‌های قدرت محاسباتی خوشه‌ای و سیستماتیک روند غالب هستند. این وضعیت برای چین هم چالش و هم فرصت محسوب می‌شود.
تحریم‌های شدید، تیم فناوری هواوی را به ارائه ایده‌های نوآورانه‌ای نظیر «جبران فیزیک با ریاضیات»، «جبران غیر مور با مور» و «جبران سیستم با تک‌نقطه» سوق داده است: بر اساس فرآیندهای ساخت تراشه قابل دستیابی، محاسبات، ذخیره‌سازی و فناوری‌های شبکه به طور همزمان نوآوری می‌کنند، یک معماری محاسباتی جدید ایجاد می‌کنند و راه‌حل‌های قدرت محاسباتی «ابرگره + خوشه» را برای تأمین نیازهای بلندمدت قدرت محاسباتی توسعه می‌دهند.
در نیمه دوم سال ۲۰۲۲، هواوی که در کانون «طوفان» تحریم‌ها قرار داشت، توسعه ابرگره را آغاز کرد. این پروژه شامل تیم‌های تجاری مختلفی نظیر Hisilicon، محاسبات و خدمات ابری بود. یکی از کارشناسان گروه پروژه به یاد می‌آورد که در آن زمان، طرح ۶۴ کارت نیز کافی به نظر می‌رسید، اما هدف هواوی برنامه‌ریزی برای آینده و آمادگی برای ارائه خدمات ابری هوش مصنوعی Ascend به صنعت بود. قدرت محاسباتی ابرگره می‌توانست تقسیم یا ترکیب شود. اگر مقیاس بزرگ می‌شد مشکلی نبود، اما اگر کوچک می‌شد ممکن بود بسیار منفعل شود. پس از بحث‌های داخلی، هواوی تصمیم گرفت به طور قاطع در توسعه ابرگره ۳۸۴ سرمایه‌گذاری کند.
به معنای دقیق کلمه، ابرگره (SuperPod) یک مفهوم جدید نیست و غول‌هایی مانند گوگل و انویدیا مدت‌ها پیش در حال کاوش آن بوده‌اند. این فناوری در شرایطی ظهور کرده است که مدل‌های شبکه عصبی بزرگ مانند ترنسفورمر، نیاز به قدرت محاسباتی و حافظه نمایش را به صورت انفجاری افزایش داده‌اند، به طوری که حتی یک GPU یا یک سرور نیز نمی‌توانند پاسخگو باشند. در این زمان، نیاز به ساخت یک ساختار یکپارچه و کارآمد با تعداد زیادی تراشه محاسباتی پرسرعت، یعنی ابرگره، وجود دارد. در مقایسه با خوشه‌های محاسباتی سنتی، ابرگره نه تنها باید قدرت محاسباتی تعداد زیادی GPU را انباشت کند، بلکه نیاز به ایجاد ارتباطات فوق پرسرعت بین GPUها و سرورها دارد تا هزینه‌های محاسبات موازی را کاهش دهد. با ادغام تعداد زیادی GPU، ابرگره قدرت محاسباتی عظیم هوش مصنوعی را فراهم می‌کند و وظایف آموزش و استنتاج را به صورت مشترک انجام می‌دهد.
در مارس سال گذشته، انویدیا ابرگره GB200 NVL72 را معرفی کرد. با استفاده از «خط اختصاصی پرسرعت داخلی» NVLink، انویدیا ۳۶ CPU Grace و ۷۲ GPU Blackwell را به صورت یکپارچه ادغام کرد و یک «GPU غول‌پیکر منطقی» ایجاد نمود. مقیاس قدرت محاسباتی کل به ۱۸۰ پتافلوپس، پهنای باند ارتباطی شبکه کل به ۱۳۰ ترابایت بر ثانیه و پهنای باند حافظه کل به ۵۷۶ ترابایت بر ثانیه رسید. طبق گفته انویدیا، ابرگره GB200 NVL72 می‌تواند سرعت استنتاج مدل‌های بزرگ با یک تریلیون پارامتر را ۳۰ برابر افزایش دهد.
در داخل کشور نیز شرکت‌های بسیاری در حال کاوش فناوری ابرگره هستند. به عنوان مثال، ابرگره ساخته شده توسط تراشه Kunlun Baidu با استفاده از پروتکل ارتباطی اختصاصی XPU Link، می‌تواند ۳۲ یا ۶۴ کارت شتاب‌دهنده هوش مصنوعی Kunlun را در یک کابینت جای دهد و ارتباط کامل بین کارت‌ها در داخل کابینت را فراهم کند. پهنای باند تا ۸ برابر افزایش می‌یابد و قدرت محاسباتی یک کابینت می‌تواند به قدرت ۸ سرور ۸ کارت در حالت سنتی برسد. علاوه بر این، غول‌هایی مانند علی‌بابا، تنسنت و چاینا موبایل نیز با چندین شرکت نرم‌افزاری و سخت‌افزاری همکاری کرده و استانداردهای باز مختلفی برای ارتباط ابرگره را راه‌اندازی کرده‌اند.
اما در حال حاضر، تنها هواوی است که با استفاده از تراشه‌های بومی، ابرگره ساخته و از NVL72 انویدیا پیشی گرفته است. ابرگره CloudMatrix 384 Ascend، تحت گذرگاه ارتباطی پرسرعت، از ۱۲ کابینت محاسباتی و ۴ کابینت گذرگاه تشکیل شده و بزرگ‌ترین ابرگره در صنعت است. مقیاس قدرت محاسباتی کل به ۳۰۰ پتافلوپس می‌رسد که ۱.۷ برابر NVL72 انویدیا است. پهنای باند ارتباطی شبکه کل به ۲۶۹ ترابایت بر ثانیه می‌رسد که ۱۰۷ درصد بیشتر از NVL72 انویدیا است. پهنای باند حافظه کل به ۱۲۲۹ ترابایت بر ثانیه می‌رسد که ۱۱۳ درصد بیشتر از NVL72 انویدیا است. مهم‌تر از همه، ابرگره Ascend می‌تواند با استفاده از راه‌حل‌هایی مانند بهترین تعادل بار شبکه، به ابرگره خوشه‌ای Atlas 900 SuperCluster با ده‌ها هزار کارت گسترش یابد و در آینده می‌تواند از تکامل مدل‌های بزرگ‌تر پشتیبانی کند.
ابرگره CloudMatrix 384 Ascend، «بمب محاسباتی» است که هواوی تحت فشار تحریم‌ها ساخته است. اما مقایسه راه‌حل‌های انویدیا و Ascend نیز سوالاتی را ایجاد می‌کند: آیا هواوی صرفاً با انباشت کارت‌های بیشتر از انویدیا پیشی گرفته است؟ چرا انویدیا و سایر شرکت‌ها کارت‌های بیشتری انباشت نکرده‌اند؟ در مقایسه با قرار دادن همه کارت‌ها در یک کابینت توسط انویدیا (مقیاس‌پذیری عمودی بیشتر سنتی)، چرا Ascend می‌تواند به چندین کابینت محاسباتی تقسیم شود (مقیاس‌پذیری افقی)؟ ساخت چنین سیستم محاسباتی غول‌پیکری چه مشکلاتی را می‌تواند حل کند؟
ابرگره: ابزار هواوی برای شکستن محاصره و روند اجتناب‌ناپذیر صنعت
با توجه به نیاز عظیم قدرت محاسباتی ناشی از قانون مقیاس‌پذیری مدل‌های بزرگ، راه‌حل سنتی انباشت کارت تا حد امکان و ساخت خوشه‌های محاسباتی بزرگ‌تر است. اما مشکل این است که انباشت بی‌حد و حصر کارت‌ها نمی‌تواند منجر به افزایش خطی قدرت محاسباتی شود، بلکه به مشکلات «دیوار حافظه»، «دیوار مقیاس» و «دیوار ارتباطی» می‌انجامد. در داخل خوشه محاسباتی، اگر GPUها و سرورها نتوانند به طور مؤثر «ارتباط برقرار کنند»، GPUها به دلیل عدم دسترسی به داده‌های کافی برای محاسبات، بیکار می‌مانند و در نتیجه به نتیجه ۱+۱<۲ منجر می‌شود.
در هشت سال گذشته، قدرت محاسباتی سخت‌افزار تک‌کارت ۴۰ برابر افزایش یافته است، اما پهنای باند گذرگاه کل گره تنها ۹ برابر و پهنای باند شبکه بین گره‌ها تنها ۴ برابر افزایش یافته است. این امر باعث شده است که ارتباط شبکه خوشه به بزرگ‌ترین چالش در آموزش و استنتاج مدل‌های بزرگ تبدیل شود. بنابراین، اگر کارایی ارتباط بهبود نیابد، انباشت ساده ۳۸۴ کارت Ascend لزوماً بهتر از ۷۲ کارت انویدیا نیست، زیرا هزینه‌های ارتباط بین کارت‌ها و سرورها افزایش قدرت محاسباتی را خنثی کرده و به کاهش قدرت محاسباتی مؤثر می‌انجامد.
به ویژه، با تبدیل شدن مدل‌های MoE (مخلوط کارشناسان) مانند DeepSeek به ساختار مدل اصلی، استراتژی موازی‌سازی مختلط پیچیده آن‌ها چالش‌های بزرگی ایجاد می‌کند. نیازهای ارتباطی به طور ناگهانی افزایش می‌یابد و حجم ارتباط تک‌باره TP (موازی تنسور)، SP (موازی سری) و EP (موازی کارشناس) به سطح گیگابایت می‌رسد و پوشش آن دشوار است. داده‌های عملی نشان می‌دهد که هنگامی که دامنه موازی‌سازی مختلط استراتژی‌های توزیع شده مانند TP، SP یا EP از ۸ کارت فراتر رود، پهنای باند ارتباط بین دستگاه‌ها به گلوگاه عملکرد تبدیل شده و باعث کاهش قابل توجه عملکرد سیستم می‌شود.
در این روند صنعت، NVLink انویدیا ارزش بیشتری نشان می‌دهد. اهمیت آن در این است که یک «خط فوق پهن» بین GPUها ایجاد می‌کند و به GPUها اجازه می‌دهد بدون عبور از CPU مستقیماً ارتباط برقرار کنند. بر این اساس، انویدیا چندین GPU، CPU، حافظه پرسرعت، NVLink/NVSwitch و غیره را به شدت یکپارچه می‌کند و ابرگره NVL72 را می‌سازد. اما مشکل این است که NVLink انویدیا فقط یک پروتکل ارتباطی بین GPUهای خودش است، در حالی که گره همچنین شامل سخت‌افزارهای ناهمگن غیر GPU مانند NPU و FPGA است. آن‌ها نمی‌توانند از طریق خط اختصاصی مانند NVLink ارتباط برقرار کنند و هنوز نیاز به عبور از GPU با پروتکل PCIe با کارایی پایین‌تر دارند. ارتباط بین گره‌ها از طریق اترنت/اینفینی‌بند بین دستگاهی نیز، در محاسبات عظیم دارای گلوگاه پهنای باند است.
در مقایسه با بهبودهای تدریجی انویدیا، ابرگره CloudMatrix 384 Ascend معماری محاسباتی سنتی را بازسازی می‌کند. هسته آن در شکستن کامل معماری فون نویمان مبتنی بر CPU به عنوان مرکز، یعنی «معماری اصلی-فرعی»، و ارائه نوآورانه «معماری کاملاً همتا» است. با پیشرفت کلیدی در گذرگاه ارتباطی پرسرعت، گذرگاه از داخل سرور به کل کابینت و حتی بین کابینت‌ها گسترش می‌یابد و در نهایت منابعی مانند CPU، NPU، DPU، ذخیره‌سازی و حافظه را کاملاً متصل و تجمیع می‌کند. این کار مراحل انتقال متعدد را حذف می‌کند و ارتباط نقطه‌به‌نقطه واقعی را امکان‌پذیر می‌سازد و در نتیجه چگالی قدرت محاسباتی و پهنای باند ارتباطی بیشتری را فراهم می‌کند.
یک کارشناس هواوی به وب‌سایت ناظر گفت: «در گذشته، مراکز داده همه از طریق CPU زمان‌بندی می‌شدند. هسته اصلی ابرگره CloudMatrix 384 Ascend معماری همتا و ارتباط نقطه‌به‌نقطه است و نیازی به عبور از ارتباط شخص ثالث نیست.» در محدوده ابرگره، ارتباط گذرگاه پرسرعت جایگزین اترنت سنتی می‌شود و پهنای باند ارتباطی ۱۵ برابر افزایش می‌یابد. تأخیر ارتباط تک‌پرشی نیز از ۲ میکروثانیه به ۲۰۰ نانوثانیه کاهش می‌یابد که ۱۰ برابر کمتر است. با استفاده از «پل هوایی اختصاصی هوش مصنوعی»، خوشه می‌تواند مانند یک کامپیوتر واحد عمل کرده و محدودیت‌های عملکرد را بشکند.
دلیل دیگری که ابرگره CloudMatrix 384 Ascend کارایی ارتباط را به طور قابل توجهی بهبود می‌بخشد، استفاده از فناوری ارتباط نوری است. در ابرگره CloudMatrix 384 Ascend، از ۳۱۶۸ فیبر نوری و ۶۹۱۲ ماژول نوری 400G استفاده شده است. در مقایسه، ابرگره NVL72 انویدیا از معماری تمام مسی استفاده می‌کند که هزینه و مصرف انرژی پایینی دارد. پس از استقرار، حالت ثابت و نسبتاً پایداری دارد، اما نقطه ضعف این است که فقط می‌تواند در فاصله کمتر از ۲ متر مستقر شود، در غیر این صورت نرخ ارتباط به طور قابل توجهی کاهش می‌یابد، بنابراین تعداد تراشه‌های قابل اتصال محدود است. ماژول‌های نوری مزایای پهنای باند بالا و نرخ بالا را دارا هستند، تلفات کمی دارند و برای انتقال طولانی‌مدت مناسب‌اند، بنابراین می‌توانند تراشه‌های بیشتری را متصل کنند و انعطاف‌پذیری بیشتری در استقرار داشته باشند.
اما ارتباط نوری نیز کاملاً بی‌نقص نیست. هزینه ماژول‌های نوری چندین برابر بیشتر از سیم‌های مسی است و مصرف انرژی نیز به طور قابل توجهی افزایش می‌یابد. علاوه بر این، فیبرهای نوری نسبتاً شکننده هستند و نرخ خرابی بالاتری دارند. اگر پورت به درستی متصل نشود، فیبر خم شود یا پورت گرد و غبار داشته باشد، هر مشکل کوچکی ممکن است باعث قطع ارتباط شود. بنابراین، اگرچه انویدیا در سال ۲۰۲۲ استفاده از ماژول‌های نوری برای اتصال ۲۵۶ تراشه H100 را در نظر گرفته بود، اما در نهایت پس از ارزیابی هزینه و پایداری، تصمیم گرفت آن را تولید نکند. به عبارت ساده، فناوری ارتباط نوری هنوز بسیار دشوار است.
اما برای غول ارتباطی مانند هواوی، «ماژول‌های نوری را کاملاً تسخیر کرده‌ایم.» فناوری ارتباط نوری که به مدت طولانی در آن انباشت تجربه صورت گرفته، در سطح جهانی پیشرو است و در ارتباط ابرگره به مزیت منحصر به فردی تبدیل شده است. علاوه بر این، برای مقابله با ویژگی‌های مستعد خطای خوشه‌های ابرگره، هواوی کلود یک «پزشک حرفه‌ای همه‌جانبه برای ابرگره» فراهم کرده است – Ascend Cloud Brain، که عمدتاً شامل استاندارد «۱-۳-۱۰» است: مرحله اول، تشخیص خطا در کمتر از ۱ دقیقه و کشف سریع مشکل؛ مرحله دوم، تعیین دقیق مشکل در کمتر از ۳ دقیقه و یافتن ریشه مشکل؛ مرحله سوم، بازیابی در کمتر از ۱۰ دقیقه و تعمیر سریع یا ادامه عملکرد سیستم.
توانمندی قدرت محاسباتی بومی برای آموزش مدل‌های بزرگ پیشرفته
ظهور ابرگره CloudMatrix 384 Ascend هنوز در داخل کشور به طور کامل شناخته نشده است، اما در خارج از کشور توجه زیادی را به خود جلب کرده است.
آژانس تحلیل معروف خارجی SemiAnalysis در گزارشی اشاره کرد که تراشه‌های هواوی یک نسل عقب هستند، اما راه‌حل‌های مقیاس‌پذیری آن یک نسل از محصولات فعلی انویدیا و AMD پیشی گرفته‌اند. ابرگره CloudMatrix 384 هواوی کلود که بر اساس تراشه‌های Ascend ساخته شده است، می‌تواند مستقیماً با GB200 NVL72 انویدیا رقابت کند و در برخی شاخص‌ها از راه‌حل‌های سطح رک انویدیا پیشی بگیرد. مزیت مهندسی آن در سطح سیستم است و شبکه، ارتباطات نوری و نرم‌افزار را پوشش می‌دهد.
حتی جن‌سن هوانگ نیز به طور عمومی اعتراف کرد که هواوی از آن‌ها پیشی گرفته است: «از نظر پارامترهای فنی، ابرگره CloudMatrix 384 هواوی حتی از نظر عملکرد از انویدیا پیشی گرفته است و از فناوری پیشرفته انویدیا برتر است، بنابراین ما باید به این شرکت قدرتمند توجه زیادی کنیم و با تمام قدرت به چالش پاسخ دهیم. هواوی به وضوح اعلام کرده است که می‌خواهد فناوری‌های 5G و هوش مصنوعی را ادغام کند. این چیدمان بسیار پیشرو و جهت استراتژیک کاملاً صحیحی است. ما نیز در حال پیشبرد برنامه‌های مشابه هستیم، اما باید سرعت خود را افزایش دهیم.»
در پسِ شناخته شدن توسط قوی‌ترین رقیب، تنها هواوی می‌داند که شکستن محاصره چقدر دشوار است. منابع داخلی هواوی کلود افشا کردند که در اوایل کار، ماژول‌های نوری اساساً قابل استفاده نبودند و می‌خواستند «غیر مور را برای حل مشکل مور» استفاده کنند، اما مشکلات غیر مور حتی بزرگ‌تر بود. «ما مجبور بودیم از هر ماژول نوری عکس بگیریم و سپس هر کدام را به طور جداگانه تحلیل کنیم و بی‌شمار مشکل را حل کنیم تا به پایداری نسبتاً خوبی برسیم.»
تلاش‌ها بی‌ثمر نبودند. ظهور ابرگره CloudMatrix 384 Ascend، انتخاب دومی را برای صنعت داخلی فراهم کرد.
مطمئناً همه هنوز به یاد دارند که DeepSeek در اوایل امسال بسیار محبوب شد. در آن زمان، هواوی کلود و Silicone Flow با همکاری یکدیگر، DeepSeekR1/V3 را بر روی ابرگره CloudMatrix 384 مستقر کردند و نتایجی مشابه H100 انویدیا به دست آوردند و حتی توانستند خدمات استنتاج در سطح تولید ارائه دهند. دلیل این امر این است که اولاً، DeepSeek یک مدل MoE است که در مقایسه با مدل‌های متراکم سنتی، فقط بخش کوچکی از گره‌های کارشناس مناسب برای وظیفه فعلی را فراخوانی می‌کند تا در کار شرکت کنند و در عین حال قدرت محاسباتی را صرفه‌جویی می‌کند و سرعت استنتاج را افزایش می‌دهد. در همان زمان، معماری قدرت محاسباتی «بدون اصلی-فرعی و کاملاً همتا» ابرگره CloudMatrix 384 Ascend، به طور طبیعی با مدل MoE سازگار است. در مقایسه با مدل «کارگاه کوچک» یک کارت چند کارشناس سنتی، ابرگره بیشتر شبیه به «مدل کارخانه بزرگ» است و از طریق گذرگاه ارتباطی پرسرعت، قابلیت هماهنگی و مقیاس‌پذیری بی‌نظیری را ارائه می‌دهد.