باز هم نوآوری از جمهوری خلق چین باز هم نوآوری از هواوی

در


باز

منتشر شده در تارنمای تکنیکی و اطلاعاتی جمهوری خلق چین

ترجمه مجید افسر

مجله جنوب جهانی

در عصر هوش مصنوعی که تحولی بنیادین در ساختار فناوری و اقتصاد جهانی ایجاد کرده است، تمرکز تدریجی از آموزش مدل‌های بزرگ به سمت استنتاج و عملکرد آن‌ها در محیط‌های واقعی جابجا شده است. در این میان، اگرچه فرآیند آموزش به عنوان پایه‌ای‌ترین مرحله توسعه مدل‌های هوش مصنوعی شناخته می‌شود، اما ارزش واقعی این فناوری در لحظه استنتاج، یعنی زمانی که مدل به درخواست کاربر پاسخ می‌دهد، تحقق می‌یابد. با این حال، چالش‌های فزاینده‌ای در مسیر استنتاج هوش مصنوعی، به‌ویژه در شرایطی که حجم داده‌ها و پیچیدگی درخواست‌ها به شکل چشمگیری افزایش یافته است، باعث شده تا عملکرد مدل‌ها در بسیاری از کشورها، از جمله چین، با محدودیت‌های جدی مواجه شود. این محدودیت‌ها نه تنها به لحاظ فنی، بلکه از نظر زیرساخت، هزینه و دسترسی به فناوری‌های پیشرفته نمود پیدا کرده و به یکی از بزرگ‌ترین موانع تجاری‌سازی هوش مصنوعی تبدیل شده است. در این میان، شرکت هواوی با معرفی یک فناوری نوین به نام UCM، یا «مدیر حافظه استنتاج»، ورودی قاطعی به این عرصه داشته و با رویکردی سیستماتیک و نوآورانه، سعی کرده راه‌حلی جامع برای رفع بحران استنتاج در محیط‌های منابع-محدود ارائه دهد.

در دنیای مدل‌های زبانی بزرگ، یکی از کلیدی‌ترین فناوری‌های بهینه‌سازی عملکرد استنتاج، استفاده از حافظه کلید-مقدار (KV Cache) است. این مکانیزم با ذخیره‌سازی نتایج میانی محاسبات مربوط به توکن‌های پیشین، از تکرار بی‌فایده محاسبات جلوگیری کرده و سرعت پاسخگویی را به شکل چشمگیری افزایش می‌دهد. با این حال، ذخیره‌سازی این حافظه‌های موقت به فضای حافظه با پهنای باند بالا (HBM) نیاز دارد که هم از نظر فیزیکی محدود است و هم از نظر هزینه بسیار گران‌قیمت.

این محدودیت، به‌ویژه در شرایطی که مدل‌ها باید با متون طولانی، مکالمات چندمرحله‌ای و فرآیندهای تجاری پیچیده سروکار داشته باشند، به یک نقطه بحرانی تبدیل می‌شود. در این شرایط، حجم داده‌های KV Cache به حدی افزایش می‌یابد که حتی حافظه‌های پیشرفته نیز قادر به نگهداری آن نیستند و در نتیجه، مدل مجبور به «فراموشی» می‌شود و مجبور است بخش‌هایی از محاسبات را مجدداً انجام دهد که منجر به تأخیر، کاهش توان عملیاتی و افزایش هزینه می‌شود. این پدیده، به ویژه در محیط‌هایی که دسترسی به کارت‌های پردازشی پیشرفته و حافظه‌های HBM با محدودیت‌های صادراتی مواجه است، چالشی دوچندان ایجاد می‌کند.

شرکت‌های چینی، که نه تنها با سرمایه‌گذاری کمتر در زیرساخت‌های هوش مصنوعی نسبت به رقبای غربی روبرو هستند، بلکه تحت تحریم‌های فناوری نیز قرار دارند، عملاً در موقعیت نامساعدی قرار گرفته‌اند و با تأخیر قابل توجهی در سرعت استنتاج (tokens/s) و پشتیبانی از حافظه متنی (context window) مواجه هستند.

به عنوان نمونه، در حالی که مدل‌های پیشرفته غربی قادر به پردازش صدها توکن در هر ثانیه با تأخیری در حد چند میلی‌ثانیه هستند، بسیاری از مدل‌های داخلی چین با سرعتی کمتر از ۶۰ توکن در ثانیه و تأخیری بالای ۱۰۰ میلی‌ثانیه عمل می‌کنند. این شکاف عملکردی، نه تنها تجربه کاربری را تضعیف می‌کند، بلکه راه را برای تجاری‌سازی موفق هوش مصنوعی مسدود می‌سازد و به تدریج به یک چرخه معیوب تبدیل می‌شود:

عملکرد ضعیف → کاهش تقاضا → کاهش سرمایه‌گذاری → کندی پیشرفت فناوری.

در این میان، هواوی با معرفی UCM، یا مدیر یکپارچه حافظه (Unified Cache Manager)، رویکردی نوین و سیستماتیک را به کار گرفته است که در واقع یک جهش مفهومی در مدیریت حافظه استنتاج محسوب می‌شود. UCM تنها یک ابزار بهینه‌سازی نیست، بلکه یک معماری جامع برای مدیریت داده‌های حافظه است که با الهام از ساختار حافظه انسانی، داده‌های KV Cache را بر اساس درجه اهمیت، میزان استفاده (گرمایی) و ارتباط با درخواست فعلی، در سطوح مختلف ذخیره‌سازی توزیع می‌کند.

این سیستم سلسله‌مراتبی شامل حافظه‌های با سرعت بالا مانند HBM و DRAM در سطوح بالایی، و حافظه‌های ذخیره‌سازی خارجی با ظرفیت بالا مانند SSD در سطوح پایین‌تر است. با استفاده از الگوریتم‌های هوشمند، UCM بخش‌هایی از داده‌های پردازش‌شده، مانند محتوای قدیمی‌تر مکالمات، اطلاعات از پیش تحلیل‌شده یا دانش‌نامه‌های RAG را از حافظه گران‌قیمت ویدیو کارت GPU خارج کرده و در ذخیره‌سازی خارجی اشتراکی قرار می‌دهد. هنگامی که درخواستی مطرح می‌شود که نیاز به این داده‌ها دارد، سیستم به جای تکرار محاسبات، داده‌های مربوطه را به صورت هوشمند بازیابی می‌کند. این فرآیند نه تنها از تکرار بی‌فایده محاسبات جلوگیری می‌کند، بلکه زمان تأخیر اولین توکن (first token latency) را تا ۹۰ درصد کاهش می‌دهد و سرعت استنتاج را به شکل چشمگیری افزایش می‌دهد.

نکته برجسته در فناوری UCM، استفاده از تکنیک‌های پیشرفته‌ای مانند «پراکندگی توجه» (attention sparsity) است. این الگوریتم‌ها قادرند تا در میان حجم عظیم داده‌های KV Cache، تنها بخش‌هایی را که با درخواست فعلی ارتباط معناداری دارند، شناسایی و به پردازنده ارسال کنند. این امر باعث کاهش تعداد بردارهایی می‌شود که باید در هر مرحله پردازش شوند و در نتیجه، توان عملیاتی کلی سیستم (throughput) افزایش می‌یابد. به بیان دیگر، UCM نه تنها داده‌ها را بیشتر نگه می‌دارد، بلکه هوشمندانه‌تر از آن‌ها استفاده می‌کند. این توانایی، به ویژه در سناریوهای طولانی‌مدت و پیچیده، مانند تحلیل گزارش‌های تحقیقاتی چند مگابایتی یا مدیریت مکالمات طولانی با مشتریان، ارزش بی‌نهایتی دارد. با این روش، مدل‌ها دیگر نیازی به «فراموشی» ندارند و می‌توانند به جای یادگیری مجدد، از دانش قبلی خود بهره ببرند. به گفته خبره هواوی، این فناوری عملکرد مدل‌ها را از حالت «یادآوری سه صفحه کاغذ» به «یادآوری سی صفحه کاغذ» ارتقا می‌دهد. این توصیف گویای اثر تحول‌آفرین UCM در گسترش پنجره متنی (context window) و بهبود کیفیت تحلیل است.

اما ارزش واقعی UCM تنها در بهبود فنی عملکرد نهفته نیست، بلکه در توانایی آن برای شکستن چرخه معیوب اقتصادی هوش مصنوعی است. با کاهش وابستگی به HBM و کاهش نیاز به «انباشتن کارت» (stacking GPUs)، هواوی راهی را فراهم کرده است که در آن شرکت‌ها بدون نیاز به سرمایه‌گذاری گسترده در زیرساخت‌های گران‌قیمت، می‌توانند عملکرد مدل‌های خود را بهبود بخشند. این امر مستقیماً به کاهش هزینه هر توکن استنتاج (cost per token) منجر می‌شود و فضایی را برای تجاری‌سازی پایدار هوش مصنوعی فراهم می‌کند. این تغییر، می‌تواند چرخه مثبتی را به حرکت درآورد: بهبود تجربه کاربری → افزایش تقاضا و ترافیک → افزایش درآمد → افزایش سرمایه‌گذاری در هوش مصنوعی → تسریع چرخه نوآوری. در این چارچوب، UCM صرفاً یک ابزار فنی نیست، بلکه یک محرک اقتصادی و استراتژیک برای رشد پایدار اکوسیستم هوش مصنوعی چین محسوب می‌شود.

این فناوری در سناریوهای واقعی نیز آزمایش شده و نتایج آن قابل توجه است. همکاری هواوی با چین یونیون (China UnionPay) در حوزه مالی، به عنوان یکی از حوزه‌های حساس و پیچیده، گواهی بر اثربخشی UCM است. در این همکاری، در سناریوی «صداهای مشتریان»، سرعت استنتاج مدل تا ۱۲۵ برابر افزایش یافته و شناسایی مسائل متداول مشتریان از چند دقیقه به تنها ۱۰ ثانیه کاهش یافته است. در فرآیند تهیه طرح‌های بازاریابی، زمان تولید محتوا از چند دقیقه به کمتر از ۱۰ ثانیه رسیده و امکان همکاری همزمان چندین کاربر بر روی یک سرور فراهم شده است. حتی در پردازش ضبط‌های صوتی طولانی با بیش از ۱۷۰ هزار توکن، مدل‌ها بدون وقوع «فراموشی» و با کیفیت بالا، قادر به تولید خلاصه‌های دقیق هستند. این موفقیت‌ها نه تنها کارایی فنی UCM را تأیید می‌کند، بلکه نشان می‌دهد که این فناوری می‌تواند در حوزه‌های مختلف صنعتی، از مالی تا بهداشت، آموزش و خدمات مشتریان، به کار گرفته شود و تحولی ایجاد کند.

نکته دیگری که UCM را از راه‌حل‌های مشابه متمایز می‌سازد، رویکرد سیستماتیک و هم‌افزار-نرم‌افزاری (hardware-software co-design) آن است. در حالی که راه‌حل‌هایی مانند Dynamo از نویدیا نیز به سمت مدیریت توزیع‌شده KV Cache حرکت کرده‌اند، هواوی با ورود به حوزه ذخیره‌سازی و استفاده از الگوریتم‌های پیشرفته‌ای در حوزه بازیابی و مدیریت چرخه حیات داده، توانسته تفاوت رقابتی ایجاد کند. علاوه بر این، تصمیم هواوی برای بازکردن کد UCM و انتشار آن به صورت متن‌باز، نه تنها نشان‌دهنده اعتماد به فناوری خود است، بلکه گامی استراتژیک برای ساختن یک اکوسیستم باز و همکارانه است. با ارائه رابط‌های استاندارد برای اتصال به موتورهای استنتاج، سخت‌افزارها و سیستم‌های ذخیره‌سازی مختلف، هواوی از تمامی توسعه‌دهندگان و شرکت‌ها دعوت کرده تا در بهبود و گسترش این فناوری مشارکت کنند. این اقدام، در شرایطی که نویدیا با بحران اعتماد ناشی از شبهه‌های امنیتی در معماری CUDA مواجه است، فرصتی طلایی برای جایگزینی راه‌حل‌های داخلی و مستقل فراهم می‌کند.

در مجموع، معرفی و انتشار UCM توسط هواوی، تنها یک نوآوری فنی در حوزه هوش مصنوعی نیست، بلکه یک حرکت سیستماتیک و استراتژیک برای رفع یکی از مهم‌ترین موانع تجاری‌سازی هوش مصنوعی در شرایط منابع-محدود است. این فناوری با ترکیب هوشمندانه مدیریت حافظه، الگوریتم‌های پیشرفته و رویکرد باز، نه تنها عملکرد مدل‌ها را بهبود می‌بخشد، بلکه چرخه معیوب اقتصادی را شکسته و فضایی را برای رشد پایدار و خوداتکای اکوسیستم هوش مصنوعی چین فراهم می‌کند. در عصر عامل‌های هوش مصنوعی (Agentic AI) که حجم داده و پیچیدگی وظایف به طور نمایی افزایش می‌یابد، چنین راه‌حل‌هایی نه تنها مفید، بلکه ضروری خواهند بود. هواوی با این اقدام، نه تنها یک مشکل فنی را حل کرده، بلکه پیشگامی را در ساختن آینده‌ای پایدار و کارآمد از هوش مصنوعی تجربه‌محور به دست آورده است.​