אנחנו משתמשים בג'מיני כדי לייצר שאלות על גבי טקסטים בארבע רמות מורכבות שונות (0, 1, 2, 3). המתייגות מסווגות את השאלות בלי לדעת מה הייתה כוונת המודל בזמן הגנרציה) . מודדים הן את ההסכמה של המתייגות מול ג'מיני והן את ההסכמה של המתייגות בינן לבין עצמן.
נכון לעכשיו, מדד ההסכמה שלנו נע סביב 0.3+. להלן טקסט קצר שיעזור להבין כיצד המדד מחושב, ולחדד את האינטואיציה מדוע תוצאה של 0.3+ היא נמוכה מדי עבור אמינות הדאטהסט שאנחנו בונים .
כשמסתכלים על נתוני תיוג, האינסטינקט הראשוני הוא לחשב את אחוז המקרים שבהם שני צדדים צדקו או הסכימו. למשל, אם מתוך 100 שאלות, שתי מתייגות סימנו בדיוק את אותה הרמה ב-60 שאלות, קל לומר שיש לנו "60% הסכמה".
הבעיה עם המספר הזה היא שהוא מתעלם לחלוטין מגורם המזל או מ-bias.
אם יש לנו שני משתנים בלתי תלויים, ההסתברות שהם יקבלו את אותו הערך במקרה היא מכפלת ההסתברויות שלהם. נניח ששני המתייגים נוטים לתייג את רמה 1 ב-70% מהמקרים (אולי כי רוב השאלות שג'מיני מייצר הן פשוטות יחסית). רק מעצם הנטייה הזו, גם אם הם ינחשו בעיניים עצומות בלי לקרוא את הטקסט, הם יסכימו ביניהם על רמה 1 ב-49% מהמקרים ($0.7 \times 0.7 = 0.49$) . לכן, אחוז הסכמה גולמי של 60% במצב כזה הוא בקושי מעל מה שהיינו מקבלים מניחוש מקרי.
אנחנו צריכים מדד שמנכה את הסכמת הסרק הזו, ופה נכנסת לתמונה הקאפה של כהן .
מדד קאפה ($\kappa$) מחשב כמה מההסכמה שראינו בפועל היא "הסכמה אמיתית" מעבר למה שצפוי להתקבל רק מכוח המקרה.
הנוסחה הפורמלית היא:
כאשר:
$p_o$ (Observed Agreement): אחוז ההסכמה שנצפה בפועל במדגם (סך האלכסון הראשי בטבלת ההצלבה חלקי סך הנתונים) .
$p_e$ (Expected Agreement): אחוז ההסכמה המצופה להתקבל באקראי, בהינתן התפלגויות השוליים (marginals) של כל מתייג .
התפלגות השוליים מייצגת את סך השכיחויות של כל קטגוריה עבור מתייג מסוים . אם נסמן ב-$r_i$ את שורות הטבלה (מתייג א') וב-$c_i$ את עמודות הטבלה (מתייג ב'), נחשב את ההסכמה האקראית הצפויה כך :
מדד קאפה הפשוט מתייחס לכל אי-הסכמה כאילו היא חמורה באותה המידה. זה מצוין לקטגוריות שמיות (נומינליות) כמו סיווג חלקי דיבר (שם עצם, פועל, תואר) – שבהן אין משמעות למרחק בין הקטגוריות.
אבל בפרויקט שלנו, ארבע הרמות הן סולם סודר מובהק המייצג רמות מורכבות לשונית ולוגית:
זאת האינטאוציה הלשונית: אם מתייגת אחת חושבת שהתשובה דורשת קישור לוגי מורכב (רמה 3) והשנייה חושבת שהתשובה בכלל לא קיימת בטקסט (רמה 0) – זהו פער תפיסתי עמוק וחמור מאוד. לעומת זאת, אם מתייגת אחת סימנה רמה 1 (ספאן יחיד) והשנייה סימנה רמה 2 (כמה ספאנים), זהו ויכוח לגיטימי על גבולות הקטגוריה, והטעות הרבה פחות חמורה.
אם נשתמש בקאפה רגילה, שני המקרים יקבלו בדיוק אותו עונש. לכן אנחנו משתמשים בקאפה עם משקולות ריבועיות (Quadratic Weighted Kappa).
את הטריק הזה אנחנו מפעילים כשאנחנו מחשבים שונות או מדד טעות ריבועית ממוצעת (MSE) בסטטיסטיקה, העלאה בריבוע מעניקה משקל חסר פרופורציה לערכים קיצוניים. במטריצת המשקולות הריבועיות ($W$) מחשבים את הריבוע של מרחק הטעות:
כאשר המרחק בין רמה 0 לרמה 1 הוא 1 (בריבוע זה עדיין 1), אבל המרחק בין רמה 0 לרמה 3 הוא 3 (בריבוע זה כבר 9! (זה סימן קריאה, לא עצרת!)) . המשקולות הריבועיות מענישות בחומרה טעויות קטסטרופליות ומגלות סלחנות יחסית לטעויות של "כמעט".
לפי סקאלת המוסכמות המקובלת במחקר , ערכים שבין 0.21 ל-0.40 מוגדרים כהסכמה סבירה בלבד (Fair Agreement). בעולם של עיבוד שפה טבעית ובניית דאטהסטים, ציון כזה אומר שהנתונים שלנו רועשים מדי, משלוש סיבות מרכזיות:
אנחנו רוצים להשתמש בדאטהסט הזה כסט אבלואציה. אם רמת ההסכמה מעבר למקרה היא רק 30%, המשמעות היא ש-70% מהשונות שאינה מוסברת על ידי מקרה היא פשוט רעש. מודל שייבחן על דאטהסט כזה יצליח גם כשהוא מייצר סתירות, פעם אחת רמה 0, פעם אחרת רמה 3. אם המתייגות לא מסכימות ביניהן, איזו משמעות יש לניחוש מוצלח של המודל?
קאפה ריבועית נוטה להיות "סלחנית" ולתת ציון גבוה יותר כאשר רוב אי-ההסכמות הן קרובות (למשל, מרחק של דרגה אחת). אם למרות הסלחנות המובנית הזו של המדד הציון שלנו הוא עדיין 0.3+, המשמעות היא אחת משתיים:
אם ההסכמה בין המתייגות לבין עצמן היא 0.3+, סימן שמדריך התיוג שלנו אינו חד מספיק. היכן עובר הגבול המדויק בין "ספאן אחד" ל"כמה ספאנים"? מה נחשב "קשר לוגי מובלע" לעומת מידע שפשוט מפוזר בטקסט? אם שתי בלשניות מיומנות מפרשות את אותה שאלה בצורה שונה, המשימה פשוט אינה מוגדרת היטב.
אם ההסכמה מול ג'מיני היא 0.3+, המשמעות היא שהפרומפט שבו אנחנו משתמשים כדי להנחות את ג'מיני לייצר רמה מסוימת (למשל, רמה 3) מייצר בפועל משהו שהגדרתית נתפס אצל בני אדם כרמה אחרת לגמרי.
כדי לפתור את זה, אנחנו לא יכולים להסתפק רק במספר שנותן "כותרת" כמו 0.3+. אנחנו צריכים לפתוח את טבלת ההצלבה (confusion matrix) ולחפש היכן מתרכזת המסה של אי-ההסכמה - כלומר לא רק האם יש הסכמה, אלא איפה היא מתבטאת.
האם הטעויות מפוזרות סביב האלכסון (ואז הבעיה היא רק חידוד הבדלים עדינים), או שיש לנו "כתמים" בפינות הטבלה (למשל, שאלות שג'מיני הגדיר כרמה 3 והמתייגות סיווגו כרמה 0)? ניתוח כזה יאפשר לנו לתקן את הפרומפטים או לדייק את הנחיות התיוג, ולהביא את הדאטהסט לרמת המהימנות הנדרשת.
נתחיל מהמסקנה של החלק הקודם: ערך ה-κ מספר לנו ש"יש לנו בעיה", אבל לא מאיפה היא מגיעה. בשביל זה צריך לפתוח את טבלת ההצלבה ולראות לא רק *כמה* אנחנו מסכימים, אלא מה ה*צורה* של אי-ההסכמה — האם הטעויות מפוזרות סביב האלכסון, או שהן ממוקמות בפינות הטבלה.
נציג שתי מטריצות, אחת לכל ציר של אי-הסכמה: בין ג'מיני לבני אדם, ובין בני אדם בינם לבין עצמם.
לכל שאלה שלפחות מתייגת אחת תייגה, חישבנו את החציון של רמת הסיווג שניתנה לה ע"י המתייגות, וקיבלנו "תווית אנושית מצרפית" אחת לכל שאלה. בחרנו בחציון ולא בממוצע מתוך אותה הסיבה שהדגשנו קודם: לסולם שלנו יש סדר, אבל אנחנו לא מניחים שהמרחקים בין הרמות אחידים — והחציון, בניגוד לממוצע, לא מניח את הנחת המרחק הזו. ההשוואה הזו, "בני אדם מצרפית מול ג'מיני", היא עדיין בין שני מתייגים, אז קאפה של כהן רלוונטית.
| H=0 | H=1 | H=2 | H=3 | סה"כ | |
|---|---|---|---|---|---|
| G=0 | 29 | 4 | 1 | 0 | 34 |
| G=1 | 1 | 74 | 5 | 0 | 80 |
| G=2 | 40 | 52 | 144 | 1 | 237 |
| G=3 | 36 | 15 | 54 | 54 | 159 |
| סה"כ | 106 | 145 | 204 | 55 | 510 |
$n = 510$ · $\kappa_{\text{quad}} = +0.343$
שימו לב ש-G זה ג'מיני ו-H זה human
מה בולט:
- רמות 0 ו-1: כמעט מושלם. תסתכלו על השורה הראשונה: מתוך 34 שאלות שג'מיני סיווג כרמה 0, ב-29 (85%) הקונצנזוס האנושי הסכים; מתוך 80 שאלות ברמה 1 (שורה שנייה), ב-74 (93%). היכן שהפרומפט של ג'מיני עובד — הוא עובד מצוין. - רמה 2: ההסכמה צונחת ל-61% (144 מתוך 237). מבין השאלות שג'מיני סיווג כאינטגרציה (רמה 2), 40 קיבלו תיוג אנושי של רמה 0 (אין תשובה!) ו-52 ירדו לרמה 1. - רמה 3: התמונה הקשה ביותר. רק 54 מתוך 159 (34%) קיבלו תיוג אנושי מקביל. 36 שאלות שג'מיני התכוון אליהן כסינתזה מסומנות ע"י המתייגות כרמה 0 — כלומר שהתשובה כלל לא נמצאת בטקסט. 15 שאלות נוספות ירדו לרמה 1 ועוד 54 לרמה 2. במילים אחרות: כשג'מיני מנסה לייצר שאלת סינתזה, הוא נכשל בכ-23% מהמקרים בעצם הימצאות התשובה בטקסט, ובעוד 43% נוספים (69 מתוך 159) מייצר שאלה שבני אדם תופסים כפשוטה ממה שהמודל התכוון — בסך הכול כ-66% מן המקרים בהם המודל אינו עומד ביעד שהוצב לו.
כאן הסיפור הסטטיסטי שונה: יש לנו שלוש מתייגות, ולחלק מהמשימות יש שתיים או שלוש תוויות. קאפה של כהן מוגדרת לזוג בלבד, ולכן כשמסכמים את כל זוגות התיוגים (atar–dani, atar–noga, dani–noga) ביחד היא כבר לא הכלי המתאים. במקומה משתמשים ב-Krippendorff's α (אלפא של קריפנדורף) — הכללה רב-מתייגית של אותה אינטואיציה. למעשה, $\alpha$ ו-$\kappa_w$ מתלכדות במקרה הזוגי.
הטבלה למטה היא הצגה ויזואלית של כל זוג תיוגים שנעשה על אותו פריט (לדוגמה, atar תייגה רמה 2 ו-dani תייגה רמה 1 = +1 בתא $[A=2, B=1]$). כל פריט שתויג ע"י שתי מתייגות תורם זוג אחד, וכל פריט שתויג ע"י שלוש מתייגות תורם שלושה זוגות. המטריצה סימטרית כי אין סיבה להעדיף סדר של מתייגת אחת על השנייה — כל זוג נספר בשני הכיוונים.
| B=0 | B=1 | B=2 | B=3 | סה"כ | |
|---|---|---|---|---|---|
| A=0 | 96 | 15 | 33 | 28 | 172 |
| A=1 | 15 | 114 | 41 | 2 | 172 |
| A=2 | 33 | 41 | 116 | 20 | 210 |
| A=3 | 28 | 2 | 20 | 48 | 98 |
| סה"כ | 172 | 172 | 210 | 98 | 652 |
$n_{\text{tasks}} = 278$ · $n_{\text{pairs}} = 326$ · Krippendorff's $\alpha = +0.333$
מה בולט:
- המספר עצמו: $\alpha = +0.333$, כמעט זהה ל-$\kappa = +0.343$ שראינו מול ג'מיני. כלומר: ההסכמה הפנים-אנושית שלנו דומה בעוצמתה להסכמה של הקונצנזוס מול המודל. גם פנימה וגם החוצה — אנחנו בקטגוריית "סבירה" (Fair). - פינות חמות בקצוות. יש 28 מקרים (בכל כיוון) שבהם מתייגת אחת אמרה רמה 0 ומתייגת אחרת אמרה רמה 3 על אותו פריט. אלה אי-הסכמות חמורות שמושכות את ה-$\alpha$ למטה חזק במיוחד בגלל המשקולת הריבועית — כל אחת מהן נכנסת לחישוב במרחק של $3^2 = 9$. - הגבול 1↔2 רועש. 41 מקרים של רמה 1 לעומת רמה 2 — כנראה הגבול הכי שכיח שבו המתייגות מתלבטות. זה "גבול גבולי" שכדאי לחדד בהנחיות. - הגבול 2↔3 גם רועש, אם כי פחות (20 מקרים בכל כיוון, סה"כ 40).
מהמטריצות עולות שלוש משימות פעולה מובחנות, מסודרות לפי המסה של אי-ההסכמה:
המטרה היא לא להגיע ל-$\kappa = 0.9$ (כפי שמופיע במפרט המקורי) — זו רמה שלא ריאלית למשימת סיווג קוגניטיבית כמו זו, גם אחרי כיול אינטנסיבי. יעד ריאלי יותר הוא $\kappa_{\text{quad}} \geq 0.6$, שמספיק כדי לפרסם את הדאטהסט כסט הערכה אמין.