המערכת של YUV.AI

חדשות

ג'מה 4: המספר שכולם מבלבלים

גוגל שחררה את ג'מה 4 בקוד פתוח מלא. אבל ה-31B שכולם קוראים לו "המהיר" הוא דווקא הכבד והאיכותי, והמהיר האמיתי הוא מודל אחר לגמרי.

שיתוף
ג'מה 4: המספר שכולם מבלבלים

אמ;לק

5 הדברים שצריך לדעת

גוגל שחררה את ג'מה 4 בשני באפריל 2026 תחת רישיון Apache 2.0, כלומר קוד פתוח שמותר להשתמש בו גם מסחרית.

גוגל אומרת במפורש שה-31B Dense ממקסם איכות גולמית. הוא הדגם החזק והכבד, לא זה שרודף מהירות.

מודל תערובת מומחים שמפעיל רק כ-3.8 מיליארד פרמטרים לכל טוקן, ולכן רץ מהר עם הרבה טוקנים בשנייה.

הקטנים תומכים ב-128 אלף טוקנים, ה-26B וה-31B עד 256 אלף. המודלים מקבלים תמונות ווידאו, והקטנים גם אודיו.

ה-31B זמין ב-Hugging Face, עם קוונטים בפורמט GGUF ותגית Ollama בשם gemma4:31b.

מסתבר שאחד המספרים הכי מדוברים בעולם המודלים הפתוחים, "ג'מה 4 של 31 מיליארד פרמטרים", תפס תווית שלא באמת שייכת לו: כולם קוראים לו המהיר, והוא דווקא הכבד והאיכותי ביותר של גוגל.

בואו נפרק את זה, כי זה בדיוק סוג הבלבול שגורם לנו לבחור מודל לא נכון למשימה.

מה בעצם קרה כאן

בשני באפריל 2026 גוגל שחררה את משפחת ג'מה 4, ותיארה אותה כמודלים הפתוחים הכי יכולים שלה עד היום. ג'מה 4 יצאה תחת רישיון Apache 2.0, כלומר קוד פתוח אמיתי שמותר להשתמש בו גם מסחרית, בלי כוכביות. רגע על מושג אחד: "מודל פתוח" (open model) זה מודל שגוגל נותנת לנו להוריד למחשב שלנו, להריץ מקומית ואפילו לשנות, בניגוד למודל סגור שרץ רק על השרתים שלהם ואנחנו רק שולחים אליו בקשות. למה זה חשוב לנו: זה אומר שאנחנו יכולים להריץ את זה על המכונה שלנו, בלי לשלם לפי טוקן ובלי לשלוח את הנתונים שלנו לענן של אף אחד.

המשפחה מגיעה בכמה גדלים: שני מודלים קטנים בשם E2B ו-E4B (זה קיצור של Effective 2B ו-Effective 4B, כלומר "אפקטיבית בגודל של 2 ו-4 מיליארד פרמטרים"), מודל של 26 מיליארד בארכיטקטורת MoE, ומודל צפוף בשם 31B Dense.

איפה כולם מתבלבלים

עכשיו לחלק שגורם לכאב ראש. השם "31B" נדבק בטעות לתכונה של מודל אחר, המהירות.

מסתבר שהמודל של 31 מיליארד פרמטרים הוא לא המהיר. גוגל אומרת במפורש שה-31B Dense הוא המודל שממקסם איכות גולמית, לא מהירות. "פרמטרים" (parameters) הם בגדול המספרים הפנימיים שהמודל לומד, וככל שיש יותר מהם המודל בדרך כלל חכם יותר אבל גם כבד וזללן יותר בזיכרון. אז 31B זה הדגם החזק, זה שרוצים כשמחפשים את התשובה הכי טובה ולא אכפת לנו לחכות עוד קצת.

המודל המהיר האמיתי הוא דווקא ה-26B, וכאן נכנס מושג ששווה להבין: MoE, ראשי תיבות של Mixture of Experts, "תערובת מומחים". במקום להעיר את כל המוח בשביל כל מילה, המודל מחזיק המון "מומחים" קטנים ומדליק רק כמה מהם לכל טוקן. ה-26B מפעיל רק כ-3.8 מיליארד פרמטרים לכל טוקן, שמונה מומחים מתוך 128 ועוד מומחה משותף אחד, וכך רץ במהירות של מודל קטנטן אבל בחוכמה של מודל גדול.

בואו נדמיין את זה ככה: מודל צפוף כמו 31B זה כמו לזמן את כל צוות בית החולים לכל חולה שנכנס בדלת. עובד, אבל יקר ואיטי. מודל MoE כמו ה-26B זה כמו מיון חכם ששולח אותנו רק לרופא המתאים. אותה איכות, הרבה פחות עומס, הרבה יותר מהר. זה למה ה-26B מוציא הרבה טוקנים בשנייה, וזה בדיוק מה שאנשים התכוונו אליו כשאמרו "הג'מה 4 המהירה".

השוואה

31B Dense מול 26B MoE: מי מתאים למה

מה זה נותן לנו בפועל

מעבר לגדלים, יש כאן עוד כמה דברים ששווים זהב.

ראשית, חלון הקשר (context window), כלומר כמה טקסט המודל יכול להחזיק בראש בבת אחת. אצל הקטנים, E2B ו-E4B, מדובר ב-128 אלף טוקנים. אצל ה-26B וה-31B זה מטפס עד 256 אלף טוקנים, מספיק בשביל להכניס פנימה ספר שלם או קודבייס רציני. למה זה חשוב לנו: פחות צורך לחתוך מסמכים לחתיכות, המודל פשוט רואה את כל התמונה.

שנית, זה מולטימודלי. כלומר המודלים מקבלים גם תמונות וגם וידאו כקלט, ואצל ה-E2B וה-E4B יש גם קלט אודיו מובנה. יש גם וריאנט מאוחר יותר שמופיע ברשימה, ג'מה 4 12B "Unified", מודל מולטימודלי בלי אנקודר נפרד, אבל את התאריך המדויק שלו אני משאיר כמדווח ולא כמאושר רשמית כאן.

ושלישית, ההרצה המקומית פשוטה. ה-31B זמין ב-Hugging Face גם כמודל בסיס וגם כמכוונן-הוראה, יש קוונטים בפורמט GGUF, ויש תגית מוכנה ל-Ollama בשם gemma4:31b. "קוונטיזציה" (quantization) זה כיווץ המודל למספרים קטנים יותר כדי שייכנס לזיכרון של המחשב שלנו בבית, בלי כרטיס גרפי של חוות שרתים.

בדקו את עצמכם

בג'מה 4, איזה מודל הוא המהיר והמותאם ללייטנסי?

על המספרים המבריקים, בזהירות

מסתובבים ברשת מספרים מרשימים: שה-31B מגיע לסביבות 1452 ב-LMArena לעומת ג'מה 3 27B שהיה בסביבות 1365, שחברת Cerebras מריצה את ה-31B במהירות של כ-1,800 טוקנים בשנייה, ושספקי ענן מדווחים על מהירויות פלט כמו כ-195.8 אצל SambaNova וכ-70.6 אצל Together AI.

שורה תחתונה על המספרים האלה: הם מגיעים ממקורות משניים ומדיווחי עיתונות, לא ממדידה עצמאית שלי. הגדלים, הרישיון והתאריך מאושרים ישירות מגוגל ומ-Hugging Face, אבל את הבנצ'מרקים המדויקים אני מציג כמדווח, לא כאמת מוחלטת. בעיניי ככה צריך לצרוך מספרי שיווק תמיד.

מסקנה

בעיניי הסיפור האמיתי כאן הוא לא "מי הכי מהיר", אלא כמה קל להצמיד תווית שגויה למודל ואז לבחור לא נכון. אם אנחנו רוצים איכות מקסימלית ויש לנו זיכרון פנוי, ה-31B Dense הוא הבחירה. אם אנחנו רוצים מהירות והרבה טוקנים בשנייה, ה-26B MoE הוא זה. שניהם אמיתיים, שניהם פתוחים לחלוטין, שניהם רצים מקומית.

המגבלה שאני שם על עצמי כאן: לא בדקתי את הבנצ'מרקים בעצמי, ואת ה-12B Unified אני מסמן כמדווח בלבד. וזו כמובן לא המלצת השקעה בשום כיוון, זו קריאה טכנית.

אז לפני שאנחנו קופצים על המספר הכי גדול ברשימה, שאלה קטנה: מתי בפעם האחרונה בחרנו מודל לפי מה שבאמת צריך, ולא לפי איך שקראו לו ברשת?

מקורות ואימות

כל טענה עובדתית בכתבה נבדקה מול המקורות הבאים.

  1. Gemma 4: Byte for byte, the most capable open models (Google official blog)blog.google
  2. Welcome Gemma 4: Frontier multimodal intelligence on device (Hugging Face official blog)huggingface.co
  3. google/gemma-4-31B-it (Hugging Face model page)huggingface.co
  4. gemma4:31b (Ollama library)ollama.com
  5. Gemma 4 - How to Run Locally (Unsloth docs)unsloth.ai
  6. Cerebras Runs Google's Gemma 4 31B at 1,800 Tokens per Second (AlphaSignal)alphasignal.ai
  7. Gemma 4 31B: API Provider Performance Benchmarking & Price (Artificial Analysis)artificialanalysis.ai

אהבתם את הכתבה? ספרו לי

הקורס המוביל שלי

Practical AI with Claude

הקורס הכי מקיף בעברית לשליטה מלאה ב-Claude — מ-Claude Desktop לעבודה יומיומית, ועד בניית סוכנים ואוטומציות אמיתיות.

למידע והרשמה

פניות תקשורת

לראיונות, שיתופי פעולה והרצאות, נשמח לדבר.

info@yuv.ai