باز
منتشر شده در تارنمای تکنیکی و اطلاعاتی جمهوری خلق چین
ترجمه مجید افسر
مجله جنوب جهانی
در عصر هوش مصنوعی که تحولی بنیادین در ساختار فناوری و اقتصاد جهانی ایجاد کرده است، تمرکز تدریجی از آموزش مدلهای بزرگ به سمت استنتاج و عملکرد آنها در محیطهای واقعی جابجا شده است. در این میان، اگرچه فرآیند آموزش به عنوان پایهایترین مرحله توسعه مدلهای هوش مصنوعی شناخته میشود، اما ارزش واقعی این فناوری در لحظه استنتاج، یعنی زمانی که مدل به درخواست کاربر پاسخ میدهد، تحقق مییابد. با این حال، چالشهای فزایندهای در مسیر استنتاج هوش مصنوعی، بهویژه در شرایطی که حجم دادهها و پیچیدگی درخواستها به شکل چشمگیری افزایش یافته است، باعث شده تا عملکرد مدلها در بسیاری از کشورها، از جمله چین، با محدودیتهای جدی مواجه شود. این محدودیتها نه تنها به لحاظ فنی، بلکه از نظر زیرساخت، هزینه و دسترسی به فناوریهای پیشرفته نمود پیدا کرده و به یکی از بزرگترین موانع تجاریسازی هوش مصنوعی تبدیل شده است. در این میان، شرکت هواوی با معرفی یک فناوری نوین به نام UCM، یا «مدیر حافظه استنتاج»، ورودی قاطعی به این عرصه داشته و با رویکردی سیستماتیک و نوآورانه، سعی کرده راهحلی جامع برای رفع بحران استنتاج در محیطهای منابع-محدود ارائه دهد.
در دنیای مدلهای زبانی بزرگ، یکی از کلیدیترین فناوریهای بهینهسازی عملکرد استنتاج، استفاده از حافظه کلید-مقدار (KV Cache) است. این مکانیزم با ذخیرهسازی نتایج میانی محاسبات مربوط به توکنهای پیشین، از تکرار بیفایده محاسبات جلوگیری کرده و سرعت پاسخگویی را به شکل چشمگیری افزایش میدهد. با این حال، ذخیرهسازی این حافظههای موقت به فضای حافظه با پهنای باند بالا (HBM) نیاز دارد که هم از نظر فیزیکی محدود است و هم از نظر هزینه بسیار گرانقیمت.
این محدودیت، بهویژه در شرایطی که مدلها باید با متون طولانی، مکالمات چندمرحلهای و فرآیندهای تجاری پیچیده سروکار داشته باشند، به یک نقطه بحرانی تبدیل میشود. در این شرایط، حجم دادههای KV Cache به حدی افزایش مییابد که حتی حافظههای پیشرفته نیز قادر به نگهداری آن نیستند و در نتیجه، مدل مجبور به «فراموشی» میشود و مجبور است بخشهایی از محاسبات را مجدداً انجام دهد که منجر به تأخیر، کاهش توان عملیاتی و افزایش هزینه میشود. این پدیده، به ویژه در محیطهایی که دسترسی به کارتهای پردازشی پیشرفته و حافظههای HBM با محدودیتهای صادراتی مواجه است، چالشی دوچندان ایجاد میکند.
شرکتهای چینی، که نه تنها با سرمایهگذاری کمتر در زیرساختهای هوش مصنوعی نسبت به رقبای غربی روبرو هستند، بلکه تحت تحریمهای فناوری نیز قرار دارند، عملاً در موقعیت نامساعدی قرار گرفتهاند و با تأخیر قابل توجهی در سرعت استنتاج (tokens/s) و پشتیبانی از حافظه متنی (context window) مواجه هستند.
به عنوان نمونه، در حالی که مدلهای پیشرفته غربی قادر به پردازش صدها توکن در هر ثانیه با تأخیری در حد چند میلیثانیه هستند، بسیاری از مدلهای داخلی چین با سرعتی کمتر از ۶۰ توکن در ثانیه و تأخیری بالای ۱۰۰ میلیثانیه عمل میکنند. این شکاف عملکردی، نه تنها تجربه کاربری را تضعیف میکند، بلکه راه را برای تجاریسازی موفق هوش مصنوعی مسدود میسازد و به تدریج به یک چرخه معیوب تبدیل میشود:
عملکرد ضعیف → کاهش تقاضا → کاهش سرمایهگذاری → کندی پیشرفت فناوری.
در این میان، هواوی با معرفی UCM، یا مدیر یکپارچه حافظه (Unified Cache Manager)، رویکردی نوین و سیستماتیک را به کار گرفته است که در واقع یک جهش مفهومی در مدیریت حافظه استنتاج محسوب میشود. UCM تنها یک ابزار بهینهسازی نیست، بلکه یک معماری جامع برای مدیریت دادههای حافظه است که با الهام از ساختار حافظه انسانی، دادههای KV Cache را بر اساس درجه اهمیت، میزان استفاده (گرمایی) و ارتباط با درخواست فعلی، در سطوح مختلف ذخیرهسازی توزیع میکند.
این سیستم سلسلهمراتبی شامل حافظههای با سرعت بالا مانند HBM و DRAM در سطوح بالایی، و حافظههای ذخیرهسازی خارجی با ظرفیت بالا مانند SSD در سطوح پایینتر است. با استفاده از الگوریتمهای هوشمند، UCM بخشهایی از دادههای پردازششده، مانند محتوای قدیمیتر مکالمات، اطلاعات از پیش تحلیلشده یا دانشنامههای RAG را از حافظه گرانقیمت ویدیو کارت GPU خارج کرده و در ذخیرهسازی خارجی اشتراکی قرار میدهد. هنگامی که درخواستی مطرح میشود که نیاز به این دادهها دارد، سیستم به جای تکرار محاسبات، دادههای مربوطه را به صورت هوشمند بازیابی میکند. این فرآیند نه تنها از تکرار بیفایده محاسبات جلوگیری میکند، بلکه زمان تأخیر اولین توکن (first token latency) را تا ۹۰ درصد کاهش میدهد و سرعت استنتاج را به شکل چشمگیری افزایش میدهد.
نکته برجسته در فناوری UCM، استفاده از تکنیکهای پیشرفتهای مانند «پراکندگی توجه» (attention sparsity) است. این الگوریتمها قادرند تا در میان حجم عظیم دادههای KV Cache، تنها بخشهایی را که با درخواست فعلی ارتباط معناداری دارند، شناسایی و به پردازنده ارسال کنند. این امر باعث کاهش تعداد بردارهایی میشود که باید در هر مرحله پردازش شوند و در نتیجه، توان عملیاتی کلی سیستم (throughput) افزایش مییابد. به بیان دیگر، UCM نه تنها دادهها را بیشتر نگه میدارد، بلکه هوشمندانهتر از آنها استفاده میکند. این توانایی، به ویژه در سناریوهای طولانیمدت و پیچیده، مانند تحلیل گزارشهای تحقیقاتی چند مگابایتی یا مدیریت مکالمات طولانی با مشتریان، ارزش بینهایتی دارد. با این روش، مدلها دیگر نیازی به «فراموشی» ندارند و میتوانند به جای یادگیری مجدد، از دانش قبلی خود بهره ببرند. به گفته خبره هواوی، این فناوری عملکرد مدلها را از حالت «یادآوری سه صفحه کاغذ» به «یادآوری سی صفحه کاغذ» ارتقا میدهد. این توصیف گویای اثر تحولآفرین UCM در گسترش پنجره متنی (context window) و بهبود کیفیت تحلیل است.
اما ارزش واقعی UCM تنها در بهبود فنی عملکرد نهفته نیست، بلکه در توانایی آن برای شکستن چرخه معیوب اقتصادی هوش مصنوعی است. با کاهش وابستگی به HBM و کاهش نیاز به «انباشتن کارت» (stacking GPUs)، هواوی راهی را فراهم کرده است که در آن شرکتها بدون نیاز به سرمایهگذاری گسترده در زیرساختهای گرانقیمت، میتوانند عملکرد مدلهای خود را بهبود بخشند. این امر مستقیماً به کاهش هزینه هر توکن استنتاج (cost per token) منجر میشود و فضایی را برای تجاریسازی پایدار هوش مصنوعی فراهم میکند. این تغییر، میتواند چرخه مثبتی را به حرکت درآورد: بهبود تجربه کاربری → افزایش تقاضا و ترافیک → افزایش درآمد → افزایش سرمایهگذاری در هوش مصنوعی → تسریع چرخه نوآوری. در این چارچوب، UCM صرفاً یک ابزار فنی نیست، بلکه یک محرک اقتصادی و استراتژیک برای رشد پایدار اکوسیستم هوش مصنوعی چین محسوب میشود.
این فناوری در سناریوهای واقعی نیز آزمایش شده و نتایج آن قابل توجه است. همکاری هواوی با چین یونیون (China UnionPay) در حوزه مالی، به عنوان یکی از حوزههای حساس و پیچیده، گواهی بر اثربخشی UCM است. در این همکاری، در سناریوی «صداهای مشتریان»، سرعت استنتاج مدل تا ۱۲۵ برابر افزایش یافته و شناسایی مسائل متداول مشتریان از چند دقیقه به تنها ۱۰ ثانیه کاهش یافته است. در فرآیند تهیه طرحهای بازاریابی، زمان تولید محتوا از چند دقیقه به کمتر از ۱۰ ثانیه رسیده و امکان همکاری همزمان چندین کاربر بر روی یک سرور فراهم شده است. حتی در پردازش ضبطهای صوتی طولانی با بیش از ۱۷۰ هزار توکن، مدلها بدون وقوع «فراموشی» و با کیفیت بالا، قادر به تولید خلاصههای دقیق هستند. این موفقیتها نه تنها کارایی فنی UCM را تأیید میکند، بلکه نشان میدهد که این فناوری میتواند در حوزههای مختلف صنعتی، از مالی تا بهداشت، آموزش و خدمات مشتریان، به کار گرفته شود و تحولی ایجاد کند.
نکته دیگری که UCM را از راهحلهای مشابه متمایز میسازد، رویکرد سیستماتیک و همافزار-نرمافزاری (hardware-software co-design) آن است. در حالی که راهحلهایی مانند Dynamo از نویدیا نیز به سمت مدیریت توزیعشده KV Cache حرکت کردهاند، هواوی با ورود به حوزه ذخیرهسازی و استفاده از الگوریتمهای پیشرفتهای در حوزه بازیابی و مدیریت چرخه حیات داده، توانسته تفاوت رقابتی ایجاد کند. علاوه بر این، تصمیم هواوی برای بازکردن کد UCM و انتشار آن به صورت متنباز، نه تنها نشاندهنده اعتماد به فناوری خود است، بلکه گامی استراتژیک برای ساختن یک اکوسیستم باز و همکارانه است. با ارائه رابطهای استاندارد برای اتصال به موتورهای استنتاج، سختافزارها و سیستمهای ذخیرهسازی مختلف، هواوی از تمامی توسعهدهندگان و شرکتها دعوت کرده تا در بهبود و گسترش این فناوری مشارکت کنند. این اقدام، در شرایطی که نویدیا با بحران اعتماد ناشی از شبهههای امنیتی در معماری CUDA مواجه است، فرصتی طلایی برای جایگزینی راهحلهای داخلی و مستقل فراهم میکند.
در مجموع، معرفی و انتشار UCM توسط هواوی، تنها یک نوآوری فنی در حوزه هوش مصنوعی نیست، بلکه یک حرکت سیستماتیک و استراتژیک برای رفع یکی از مهمترین موانع تجاریسازی هوش مصنوعی در شرایط منابع-محدود است. این فناوری با ترکیب هوشمندانه مدیریت حافظه، الگوریتمهای پیشرفته و رویکرد باز، نه تنها عملکرد مدلها را بهبود میبخشد، بلکه چرخه معیوب اقتصادی را شکسته و فضایی را برای رشد پایدار و خوداتکای اکوسیستم هوش مصنوعی چین فراهم میکند. در عصر عاملهای هوش مصنوعی (Agentic AI) که حجم داده و پیچیدگی وظایف به طور نمایی افزایش مییابد، چنین راهحلهایی نه تنها مفید، بلکه ضروری خواهند بود. هواوی با این اقدام، نه تنها یک مشکل فنی را حل کرده، بلکه پیشگامی را در ساختن آیندهای پایدار و کارآمد از هوش مصنوعی تجربهمحور به دست آورده است.
