הדרכות

מה זה בעצם LLM? המדריך שמסביר מודל שפה גדול בלי באזז

כולם מדברים על מודלי שפה גדולים, אבל מעטים יודעים מה באמת קורה מתחת למכסה המנוע. הנה ההסבר מאפס: איך המכונה מנחשת את המילה הבאה, למה היא "משלימה" ולא "יודעת", ולמה זה משנה לכל מי שמקליד פרומפט.

מה זה בעצם LLM? המדריך שמסביר מודל שפה גדול בלי באזז

בוא נטוס גבוה, אבל נמריא מהקרקע — לא מהעננים. כולם מדברים על LLM, אבל כמעט אף אחד לא יודע מה באמת קורה בפנים, ולכן רובם משתמשים בכלי הזה כמו חובבנים: זורקים שתי מילים ומקווים לקסם. אני הולך לפרק לך את זה לפירור האחרון — מה זה, למה זה עובד ככה, ואיך זה עובד מתחת למכסה המנוע — ובאמצע תעצור ותשחק עם מודל שפה אמיתי שבניתי לך כאן בעמוד. ברגע שתבין מה קורה בפנים, תפסיק לפחד מהכלי ותתחיל לשלוט בו.

קודם כול: מה זה בכלל "LLM"?

שלוש האותיות הן ראשי תיבות של Large Language Model — "מודל שפה גדול". בוא נפרק כל מילה, כי כל אחת מהן חשובה:

  • שפה (Language): הדבר עוסק בטקסט — מילים, משפטים. לא בתמונות ולא במספרים, אלא בשפה אנושית כתובה.
  • מודל (Model): "מודל" הוא ייצוג מתמטי של דפוס במציאות. בדיוק כמו שמודל מזג אוויר הוא נוסחה שמנבאת גשם מתוך נתוני עבר — מודל שפה הוא מנגנון שלמד דפוס אחד מאוד מסוים מתוך כמויות עצומות של טקסט. תכף נראה איזה דפוס.
  • גדול (Large): "גדול" מתאר כמה דברים שהמודל "זוכר" (נקראים פרמטרים — נחזור לזה). כרגע תחזיק רק את האינטואיציה: ראה המון טקסט, ויש לו המון "כפתורים פנימיים" שמכוונים את הניחושים שלו.

הרעיון היחיד שצריך להבין: ניחוש המילה הבאה

הנה הסוד הגדול, והוא פשוט עד כדי הלם. כל מה ש-LLM עושה בבסיס הוא דבר אחד: בהינתן רצף של מילים, הוא מנחש מהי המילה הסבירה ביותר שתבוא אחריו. זהו. זה כל הסיפור.

תחשוב על השלמה אוטומטית במקלדת של הטלפון. אתה מקליד "אני בדרך" — והמקלדת מציעה "הביתה". איך היא יודעה? היא ראתה אלפי הודעות שבהן אחרי "אני בדרך" הופיעה לרוב "הביתה". מודל שפה הוא בדיוק אותו רעיון, אבל במקום אלפי ההודעות שלך הוא ראה נתח עצום מהאינטרנט: ספרים, מאמרים, ויקיפדיה, פורומים, קוד. ככל שראה יותר טקסט — כך הניחוש שלו לגבי המילה הבאה מדויק ועשיר יותר.

ואיך נבנה משפט שלם מניחוש של מילה אחת? פשוט חוזרים על זה: המודל מנחש מילה, מוסיף אותה לרצף, ואז מנחש שוב — על בסיס הרצף החדש — וכך הלאה, מילה אחרי מילה, עד שנוצרת פסקה. כל תשובה מרשימה שקיבלת אי פעם נבנתה כך: ניחוש, אחרי ניחוש, אחרי ניחוש.

זה נשמע מופשט? אז בוא נפסיק לדבר ונתחיל לשחק. למטה יש מודל שפה אמיתי — זעיר, אבל אמיתי לחלוטין — שבניתי כאן בדפדפן. הוא ספר, מתוך טקסט עברי אמיתי, איזו מילה באה אחרי איזו, וכל אחוז שתראה חושב ממש עכשיו מהספירה הזו:

מנוע אמיתי · נסו בעצמכם

מודל השפה הקטן: נחשו את המילה הבאה

זה לא סרטון. זה מודל שפה אמיתי (זעיר) שספר, מתוך טקסט עברי אמיתי, איזו מילה באה אחרי איזו. כל אחוז למטה מחושב ממש עכשיו. ==בדיוק ככה עובד מודל ענק — רק בקנה מידה אדיר יותר.==

בחרו מילה ראשונה למטה…
זהיר וצפוייצירתי ומפתיע

המילים הסבירות הבאות לתחילת משפט:

שימו לב: בטמפרטורה נמוכה המכונה כמעט תמיד בוחרת את המילה הכי שכיחה (זהיר); בטמפרטורה גבוהה ההסתברויות מתשטחות והיא מעזה לבחור מילים מפתיעות. זה בדיוק הכפתור "טמפרטורה" שיש לכם ב-API של כל מודל.

מה בדיוק ראית עכשיו

בוא נוודא שכל פירור ברור, כי כאן נמצאת כל ההבנה:

  • למה יש כמה מילים אפשריות ולא אחת? כי בטקסט שעליו "התאמן" המודל, אחרי מילה מסוימת הופיעו כמה מילים שונות. למשל, אחרי "אני" הופיעו גם "אוהב", גם "בונה" וגם "לומד". המודל לא בוחר אחת ומוחק את השאר — הוא מחזיק את כולן עם הסתברות לכל אחת.
  • מה זה ה-% ליד כל מילה? זו ההסתברות — כמה סביר שדווקא המילה הזו תבוא עכשיו. איך הוא מחשב אותה? פשוט מאוד: אם אחרי "אני" הופיעה "אוהב" 4 פעמים ו"רוצה" 2 פעמים, אז "אוהב" סבירה פי שניים. ההסתברות היא בסך הכול הספירה היחסית הזו. המכונה לא "יודעת" מה נכון — היא מודדת מה שכיח.
  • מה עשה לך מחוון ה"טמפרטורה"? שמת לב שכשהורדת אותו, המכונה כמעט תמיד בחרה את המילה הכי שכיחה, וכשהעלית אותו — ההסתברויות התשטחו והיא העזה לבחור מילים מפתיעות? הטמפרטורה היא בדיוק "כמה להסתכן". נמוך = זהיר וצפוי. גבוה = יצירתי ומפתיע. זה אותו כפתור "temperature" שמופיע ב-API של כל מודל אמיתי — ועכשיו אתה יודע מה הוא עושה מבפנים, לא רק ש"הוא משפיע".

ההבדל היחיד בין הצעצוע הזה לבין GPT או Claude הוא קנה המידה: המודל שלי ספר מילה-אחרי-מילה בכמה עשרות משפטים; מודל ענק "סופר" דפוסים הרבה יותר מתוחכמים, על נתח אדיר מהאינטרנט. אבל המנגנון — לנחש את הסביר הבא לפי מה שנראה בעבר — זהה לחלוטין.

למה הוא "משלים" ולא "יודע" — וכאן נולדות ההזיות

זו הנקודה הכי חשובה במדריך, אז עצור והפנם. המודל לא ניגש למאגר עובדות כדי לשלוף תשובה — הוא מייצר את הטקסט הסביר ביותר שמתאים לשאלה. זה לא משחק מילים; זה משנה הכול.

דמיין שחקן אלתור גאוני שקרא מיליון ספרים. אתה זורק לו פתיחת משפט, והוא ממשיך בביטחון כל כך משכנע שזה נשמע כמו אמת. רוב הזמן הוא יצדק — כי הטקסט שעליו "גדל" היה לרוב נכון. אבל כשהוא לא יודע, הוא לא יעצור ויגיד "אין לי מושג". הוא פשוט ימשיך לאלתר משהו שנשמע נכון. בעולם ה-AI קוראים לזה הזיה (hallucination), ועכשיו אתה מבין למה זה קורה: זו לא תקלה אקראית — זו תוצאה ישירה ובלתי נמנעת של "נחש את המילה הסבירה הבאה". מודל מכוון לשטף ולסבירות, לא לאמת. לכן הוא יכול להמציא לך מקור, תאריך או מספר בביטחון מוחלט — וזו הסיבה שלעולם אסור להסתמך עליו כמקור עובדתי בלי לאמת.

רגע — הוא עובד על "מילים" או על משהו אחר? (טוקנים)

עד עכשיו אמרתי "מילה" כדי לבנות לך את האינטואיציה, אבל הנה הדיוק: מודל אמיתי לא עובד על מילים שלמות אלא על טוקנים (tokens) — פיסות של מילים. טוקן הוא היחידה הקטנה שהמודל קורא וכותב: לפעמים מילה שלמה ("שלום"), לפעמים חצי מילה, ולפעמים סיומת בודדת.

למה לפרק מילים לפיסות במקום לעבוד על מילים שלמות? שתי סיבות, ושתיהן מעשיות:

  1. כדי לא להיתקע מול מילה שלא נראתה. אם המודל עובד רק על מילים שלמות, מילה חדשה שלא הופיעה באימון (שם מותג, מילה נדירה, צירוף חדש) פשוט "לא קיימת" עבורו. אבל אם הוא יודע פיסות, הוא יכול להרכיב כמעט כל מילה מחתיכות מוכרות — בדיוק כמו שאתה קורא מילה שלא ראית מעולם לפי ההברות.
  2. כדי לחסוך. מספר המילים בשפה עצום; מספר הפיסות השכיחות קטן בהרבה. לעבוד על פיסות זה פשוט יעיל יותר.

זה גם מסביר עובדה פרקטית שתפגוש: בעברית טקסט נשבר לרוב ליותר טוקנים מאשר באנגלית — כי רוב המודלים אומנו בעיקר על אנגלית, אז ה"פיסות" שלהם מותאמות לאנגלית, והעברית מתפרקת לחתיכות קטנות יותר. לכן אותו משפט בעברית "עולה" יותר ולעיתים נחתך מהר יותר. כשתשמע על "חלון הקשר" (כמה טקסט המודל יכול להחזיק בבת אחת) — היחידה שנספרת היא טוקנים, לא מילים.

ואיך הוא בכלל "מבין" אותך?

אם הוא רק מנחש את הפיסה הבאה, איך הוא תופס הקשר, כוונה או בקשה מורכבת? כאן נכנס המנגנון שנקרא Transformer, ובלבו רעיון בשם קשב (attention). בלי נוסחאות — רק האינטואיציה והלמה:

המודל לא מתייחס למילה כמילה, אלא הופך כל מילה לרשימת מספרים שמייצגת את המשמעות שלה ביחס לשאר. במרחב המספרים הזה, "מלך" ו"מלכה" קרובים זה לזה, ו"פריז" קשורה ל"צרפת" באותו אופן ש"טוקיו" קשורה ל"יפן". המודל לומד את היחסים בין מושגים, לא רק את המילים עצמן. מנגנון הקשב מאפשר לו, כשהוא מנחש את הפיסה הבאה, לשקלל אילו מילים קודמות בטקסט הכי רלוונטיות לרגע הזה — וזה בדיוק מה שנותן לו לעקוב אחרי הקשר לאורך פסקה שלמה, ולא רק להסתכל על המילה האחרונה כמו הצעצוע שלמעלה.

למה כל זה משנה לך, בפועל

ההבנה הזו הופכת אותך למשתמש אחר לגמרי. שלושה דברים פרקטיים שנובעים ישירות מהמנגנון:

  1. תן הקשר עשיר. המודל מנחש על בסיס הרצף שאתה נותן. "כתוב לי מייל" יקבל תשובה גנרית; "כתוב מייל קצר ומנומס ללקוח שאיחר בתשלום, בטון ידידותי אך תקיף" יקבל זהב. ככל שהרצף שלך עשיר וברור יותר — הניחושים שלו טובים יותר.
  2. אמת תמיד עובדות. עכשיו אתה יודע למה: הוא מכוון לסבירות, לא לאמת. כל מספר, תאריך, ציטוט או מקור — בדוק. הוא מצוין בניסוח, ניתוח ורעיונות; הוא מסוכן כשמתייחסים אליו כאל אנציקלופדיה.
  3. שחק עם הטמפרטורה. כבר ראית בעיניים מה היא עושה. כשאתה צריך דיוק — בקש ממנו להיות תמציתי ועובדתי (טמפרטורה נמוכה במהותה); כשאתה צריך רעיונות — תן לו לדהור.

LLM הוא לא קוסם ולא נביא. הוא מנוע ניחוש מבריק שאומן על נתח עצום מהשפה האנושית. ברגע שאתה מתייחס אליו ככזה — שותף חכם שצריך הכוונה ובקרה, לא אורקל יודע-כול — אתה מפסיק לפחד ומתחיל לטוס איתו גבוה.

אמ;לק

5 הדברים שצריך לדעת

כל מה שמודל שפה עושה בבסיס הוא לחזות איזו מילה הכי סבירה לבוא אחרי הרצף הקיים — בדיוק כמו השלמה אוטומטית במקלדת, אבל בעוצמה אדירה.

המודל לא שולף תשובות ממאגר עובדות — הוא מייצר את הטקסט הסביר ביותר, ולכן הוא יכול להמציא דברים בביטחון מלא (הזיות).

המודל מכוון לשטף ולשכנוע, לא לאמת — אז כל תאריך, מספר, ציטוט או מקור חייבים אימות חיצוני.

ככל שהפרומפט עשיר ומפורט יותר, הניחושים של המודל טובים יותר — מי ששולט בהקשר שולט בתוצאה.

המודל הופך מילים למספרים שמייצגים משמעות ויחסים, ומנגנון הקשב מאפשר לו לעקוב אחרי הקשר לאורך פסקאות שלמות.

פניות תקשורת

לראיונות, שיתופי פעולה והרצאות — נשמח לדבר.

info@yuv.ai