חדשות

DGX Spark מול Strix Halo: מי באמת מריץ LLM מקומי טוב יותר

שתי קופסאות של 128 גיגה שמריצות מודלים ענקיים בבית. בדקנו את המספרים, והתשובה מפתיעה: במהירות זה כמעט תיקו, וההבדל האמיתי הוא המחיר.

מאת Yuval Avidani1 ביולי 2026קריאה בת 5 דק׳

שיתוף

DGX Spark מול Strix Halo: מי באמת מריץ LLM מקומי טוב יותר

אמ;לק

5 הדברים שצריך לדעת

ה-DGX Spark היא קופסת שולחן בגודל כף יד, 1.2 קילו, עם ספק כוח חיצוני של 240 וואט. לא מחשב נייד.

על gpt-oss 120B: ה-AMD עשה 34.13 טוקנים לשנייה מול 38.55 של NVIDIA. פער של בערך 13 אחוז, כי decode חסום ברוחב פס והשניים כמעט זהים (273 מול 256 GB/s).

בקריאת הפרומפט הראשונית ה-Spark מהירה פי 2 עד 3, וביצירת תמונות ב-FLUX פי 2.5, בזכות Blackwell ו-CUDA.

ה-Framework Desktop עם Strix Halo עומד על בערך 1999 דולר, בערך חצי ממחיר ה-DGX Spark (3999 דולר רשמי, יותר ברחוב).

לצ'אט מקומי פשוט: AMD, 90 אחוז מהחוויה בחצי מחיר וגם מחשב רגיל. לסוכנים, fine-tuning וייצור תמונות: ה-Spark מצדיקה את התוספת.

מסתבר שהמכונה הקטנה שכולם קוראים לה "מחשב-על אישי" בכלל לא לפטופ. ה-DGX Spark של NVIDIA הוא קופסה שיושבת על השולחן, בגודל כף יד, שוקלת בערך קילו ורבע, עם ספק כוח חיצוני של 240 וואט. אז אם ראיתם מישהו מנופף בה כאילו זה מחשב נייד עוצמתי, זו כבר הטעות הראשונה שנפרק פה.

בואו נפרק את זה מההתחלה. יש לנו שתי קופסאות שכולן מדברים עליהן ב-2026: ה-DGX Spark של NVIDIA, וה-Ryzen AI Max+ 395 של AMD, שם הקוד שלו הוא Strix Halo. שתיהן מכוונות לאותו דבר בדיוק: להריץ מודלים גדולים של בינה מלאכותית מקומית, בבית שלכם, בלי ענן. והשאלה שכולם שואלים היא פשוטה: מי מריצה LLM מקומי טוב יותר?

התשובה הלא-סקסית והנכונה היא שבמהירות של יצירת טקסט, שתי הקופסאות כמעט תיקו. וזה בדיוק החלק שהשיווק לא רוצה שתדעו.

מה זה בכלל "זיכרון מאוחד" ולמה זה כל הסיפור

לפני שנשווה, צריך להבין מושג אחד: זיכרון מאוחד (unified memory). במחשב רגיל יש לכם RAM בצד אחד וכרטיס מסך עם הזיכרון שלו בצד שני, ושניהם צריכים להעביר מידע ביניהם. בקופסאות האלה הזיכרון משותף לכולם: המעבד, הכרטיס הגרפי והשבב שמריץ את הבינה, כולם ניגשים לאותה בריכה גדולה של 128 גיגה.

למה זה חשוב לנו? כי מודל גדול, נגיד בסדר גודל של 70 מיליארד פרמטרים, פשוט לא נכנס לתוך שום כרטיס מסך צרכני רגיל שיש בשוק. הזיכרון המאוחד של 128 גיגה מאפשר להחזיק מודל כזה שלם בזיכרון. ה-DGX Spark מגיע עם 128GB LPDDR5X ברוחב פס של בערך 273 גיגה-בייט לשנייה. ה-Strix Halo מגיע גם הוא עד 128 גיגה, ברוחב פס של בערך 256 גיגה-בייט לשנייה, כלומר בערך 7 אחוז מתחת ל-NVIDIA.

ופה מגיע המכשול המחשבתי הגדול: אנשים חושבים ש-7 אחוז הבדל ברוחב הפס זה כלום, וש-NVIDIA בטח מנצחת בגדול בכל דבר. אז לא.

למה יצירת טקסט זה כמעט תיקו

בואו נבין מה קורה כשמודל "כותב" לכם תשובה. השלב הזה נקרא decode, כלומר ייצור הטוקנים אחד-אחרי-השני. הצוואר-בקבוק פה הוא לא כמה חישובים המכונה עושה, אלא כמה מהר היא מספיקה לשלוף את המשקלים של המודל מהזיכרון. במילים אחרות: יצירת טקסט חסומה ברוחב הפס של הזיכרון, לא בכוח החישוב.

תחשבו על זה ככה: זה כמו מלצר שרץ הלוך-ושוב למטבח. לא משנה כמה ידיים יש לו, מה שקובע זה כמה מהר הוא רץ במסדרון. ואם למסדרון של שתי הקופסאות כמעט אותו רוחב, שתיהן יגישו אוכל באותו קצב.

בבדיקה עצמאית על מודל gpt-oss בגודל 120 מיליארד פרמטרים, ה-Ryzen AI Max+ 395 עשה 34.13 טוקנים לשנייה מול 38.55 של ה-DGX Spark. יתרון של בערך 13 אחוז ל-NVIDIA, לא פער בין דורות. ואם זה לא מספיק, האתר The Register מצא שעם מנוע ה-Vulkan בתוך llama.cpp, ה-AMD אפילו לקח יתרון קטן ביצירת טוקנים. אז מי שמדמיין שה-NVIDIA "מוחקת" את המתחרה ביום-יום של צ'אט מקומי, פשוט טועה.

השוואה

DGX Spark מול Strix Halo

איפה NVIDIA באמת מנצחת

עכשיו, כדי להיות הוגנים, יש שני מקומות שבהם ה-Spark כן פותחת פער אמיתי.

הראשון נקרא prompt processing, או בשם אחר time-to-first-token: כמה זמן לוקח למודל לקרוא את מה שכתבתם ולהתחיל לענות. השלב הזה, שנקרא prefill, הוא הפוך מהקודם: הוא חסום בכוח חישוב, לא ברוחב פס. ופה ה-GPU מסוג Blackwell של NVIDIA, יחד עם CUDA, פשוט חזק בהרבה. על פרומפט של 256 טוקנים ה-Spark מהירה בערך פי 2 עד 3, ובחלק מהבדיקות עד פי 5. וככל שההקשר ארוך יותר, כך הפער גדל.

למה זה משנה לנו? כי אם אתם דוחפים למודל מסמכים ארוכים או בונים סוכן שקורא הרבה טקסט לפני שהוא עונה, ההמתנה ההתחלתית מורגשת. שם ה-Spark נותנת חוויה אחרת.

השני הוא יצירת תמונות. במבחן FLUX.1 Dev, ה-DGX Spark, עם בערך 125 TFLOPS ב-BF16, הייתה מהירה פי 2.5 מה-Strix Halo, שנמצא סביב 46 TFLOPS. שוב, משימה שחסומה בכוח חישוב טהור, ושם ה-Blackwell שולטת.

המחיר: פי שתיים, וזו לא הערת אגב

עכשיו לחלק שמכריע את רוב ההחלטות בעולם האמיתי. ה-DGX Spark הוכרזה ב-19 במרץ 2025 ב-GTC, במקור תחת השם Project DIGITS, ונכנסה למכירה ב-15 באוקטובר 2025 במחיר רשמי של 3999 דולר. בפועל ברחוב זה יותר: בערך 4399 דולר ב-Newegg, ובערך 4699 ב-Marketplace של NVIDIA עם קורס מצורף.

מהצד השני, ה-Framework Desktop עם 128 גיגה, אחת המכונות המובילות עם Strix Halo, עומד על בערך 1999 דולר, בערך חצי ממחיר ה-Spark. גם ה-HP Z2 Mini G1a, בערך 2949 דולר, עדיין זול משמעותית. ומעבר למחיר יש הבדל מהותי: ה-Strix Halo הוא בסוף מחשב רגיל לכל דבר, אתם יכולים לעבוד עליו יום-יום. ה-Spark היא מכשיר ייעודי לבינה מלאכותית.

בדקו את עצמכם

למה מהירות יצירת הטקסט של שתי הקופסאות כמעט זהה, למרות שה-NVIDIA חזקה בהרבה בחישוב?

מסקנה: אל תיפלו לשיווק של "מחשב-על"

בעיניי, כל הסיפור הזה הוא בעצם החלטת תקציב שמחופשת למפלצת טכנולוגית. אם כל מה שאתם רוצים זה להריץ צ'אט מקומי ולשוחח עם מודלים גדולים, ה-AMD נותן לכם בערך 90 אחוז מהחוויה בחצי מהמחיר, ומשמש גם כמחשב רגיל. אם לעומת זאת אתם בונים סוכנים, עושים fine-tuning, או מייצרים תמונות ווידאו דרך CUDA ו-Blackwell, ה-Spark היא מעבדת-בינה-בקופסה שאולי מצדיקה את התוספת.

וזה בדיוק מה ש-The Register אמרו: להסקה מקומית של LLM הם ממליצים דווקא על מערכות Strix Halo, בגלל המחיר ובגלל שוויון רוחב הפס, ובגלל שהן משמשות כמחשב לכל דבר. ה-Spark, לעומתן, מתאימה יותר לפרוטוטייפ של סוכנים, ל-fine-tuning ולייצור תמונות.

שורה תחתונה: אל תיפלו לשיווק של "מחשב-על אישי". תשאלו את עצמכם קודם מה אתם באמת הולכים לעשות עם הקופסה, ורק אז תסתכלו על המחיר. חשוב לזכור שכל המספרים פה מגיעים מבדיקות ספציפיות על מודלים ספציפיים, וייתכן שעל מודל אחר או עם מנוע אחר התמונה תיראה מעט שונה. וזו לא המלצת רכישה, זו רק פרספקטיבה מפוכחת על מה שהמכונות האלה באמת נותנות.

אז אחרי שהבנתם שהמהירות כמעט זהה, ושהפער האמיתי הוא במחיר, השאלה היחידה שנשארה היא: אתם באמת בונים סוכנים ומאמנים מודלים, או שאתם סתם רוצים לספר שיש לכם מחשב-על על השולחן?