מדד קאפה של כהן — מי ביקש כאפה ולא קיבל?

מדריך להערכת הסכמה בין מתייגים בפרויקט הפקת השאלות

אנחנו משתמשים בג'מיני כדי לייצר שאלות על גבי טקסטים בארבע רמות מורכבות שונות (0, 1, 2, 3). המתייגות מסווגות את השאלות בלי לדעת מה הייתה כוונת המודל בזמן הגנרציה) . מודדים הן את ההסכמה של המתייגות מול ג'מיני והן את ההסכמה של המתייגות בינן לבין עצמן.

נכון לעכשיו, מדד ההסכמה שלנו נע סביב 0.3+. להלן טקסט קצר שיעזור להבין כיצד המדד מחושב, ולחדד את האינטואיציה מדוע תוצאה של 0.3+ היא נמוכה מדי עבור אמינות הדאטהסט שאנחנו בונים .

1. למה אחוז הסכמה פשוט עלול להטעות?

כשמסתכלים על נתוני תיוג, האינסטינקט הראשוני הוא לחשב את אחוז המקרים שבהם שני צדדים צדקו או הסכימו. למשל, אם מתוך 100 שאלות, שתי מתייגות סימנו בדיוק את אותה הרמה ב-60 שאלות, קל לומר שיש לנו "60% הסכמה".

הבעיה עם המספר הזה היא שהוא מתעלם לחלוטין מגורם המזל או מ-bias.

אם יש לנו שני משתנים בלתי תלויים, ההסתברות שהם יקבלו את אותו הערך במקרה היא מכפלת ההסתברויות שלהם. נניח ששני המתייגים נוטים לתייג את רמה 1 ב-70% מהמקרים (אולי כי רוב השאלות שג'מיני מייצר הן פשוטות יחסית). רק מעצם הנטייה הזו, גם אם הם ינחשו בעיניים עצומות בלי לקרוא את הטקסט, הם יסכימו ביניהם על רמה 1 ב-49% מהמקרים ($0.7 \times 0.7 = 0.49$) . לכן, אחוז הסכמה גולמי של 60% במצב כזה הוא בקושי מעל מה שהיינו מקבלים מניחוש מקרי.

אנחנו צריכים מדד שמנכה את הסכמת הסרק הזו, ופה נכנסת לתמונה הקאפה של כהן .

2. כהן נותן בראש: של כהן: ניקוי הרעש באמצעות קאפה

מדד קאפה ($\kappa$) מחשב כמה מההסכמה שראינו בפועל היא "הסכמה אמיתית" מעבר למה שצפוי להתקבל רק מכוח המקרה.

הנוסחה הפורמלית היא:

$$\kappa = \frac{p_o - p_e}{1 - p_e}$$

כאשר:

$p_o$ (Observed Agreement): אחוז ההסכמה שנצפה בפועל במדגם (סך האלכסון הראשי בטבלת ההצלבה חלקי סך הנתונים) .

$p_e$ (Expected Agreement): אחוז ההסכמה המצופה להתקבל באקראי, בהינתן התפלגויות השוליים (marginals) של כל מתייג .

התפלגות השוליים מייצגת את סך השכיחויות של כל קטגוריה עבור מתייג מסוים . אם נסמן ב-$r_i$ את שורות הטבלה (מתייג א') וב-$c_i$ את עמודות הטבלה (מתייג ב'), נחשב את ההסכמה האקראית הצפויה כך :

$$p_e = \sum_{i} \frac{r_i \cdot c_i}{N^2}$$

ערך $\kappa = 1$ מייצג הסכמה מושלמת.

ערך $\kappa = 0$ אומר שהמתייגים מסכימים בדיוק באותו שיעור שהיה מתקבל אילו היו מנחשים באופן עצמאי לחלוטין בהתאם להרגלי התיוג שלהם.

3. למה סולמות סודרים דורשים יחס מיוחד?

מדד קאפה הפשוט מתייחס לכל אי-הסכמה כאילו היא חמורה באותה המידה. זה מצוין לקטגוריות שמיות (נומינליות) כמו סיווג חלקי דיבר (שם עצם, פועל, תואר) – שבהן אין משמעות למרחק בין הקטגוריות.

אבל בפרויקט שלנו, ארבע הרמות הן סולם סודר מובהק המייצג רמות מורכבות לשונית ולוגית:

רמה 0: אין תשובה בטקסט.

רמה 1: תשובה בספאן אחד ויחיד.
רמה 2: תשובה המתפרסת על גבי כמה ספאנים.

רמה 3: תשובה המבליעה קשר לוגי בין הספאנים.

זאת האינטאוציה הלשונית: אם מתייגת אחת חושבת שהתשובה דורשת קישור לוגי מורכב (רמה 3) והשנייה חושבת שהתשובה בכלל לא קיימת בטקסט (רמה 0) – זהו פער תפיסתי עמוק וחמור מאוד. לעומת זאת, אם מתייגת אחת סימנה רמה 1 (ספאן יחיד) והשנייה סימנה רמה 2 (כמה ספאנים), זהו ויכוח לגיטימי על גבולות הקטגוריה, והטעות הרבה פחות חמורה.

אם נשתמש בקאפה רגילה, שני המקרים יקבלו בדיוק אותו עונש. לכן אנחנו משתמשים בקאפה עם משקולות ריבועיות (Quadratic Weighted Kappa).

את הטריק הזה אנחנו מפעילים כשאנחנו מחשבים שונות או מדד טעות ריבועית ממוצעת (MSE) בסטטיסטיקה, העלאה בריבוע מעניקה משקל חסר פרופורציה לערכים קיצוניים. במטריצת המשקולות הריבועיות ($W$) מחשבים את הריבוע של מרחק הטעות:

$$W_{ij} = \frac{(i-j)^2}{(n-1)^2}$$

כאשר המרחק בין רמה 0 לרמה 1 הוא 1 (בריבוע זה עדיין 1), אבל המרחק בין רמה 0 לרמה 3 הוא 3 (בריבוע זה כבר 9! (זה סימן קריאה, לא עצרת!)) . המשקולות הריבועיות מענישות בחומרה טעויות קטסטרופליות ומגלות סלחנות יחסית לטעויות של "כמעט".

4. אז למה קאפה של 0.3+ היא נמוכה מדי לפרויקט שלנו?

לפי סקאלת המוסכמות המקובלת במחקר , ערכים שבין 0.21 ל-0.40 מוגדרים כהסכמה סבירה בלבד (Fair Agreement). בעולם של עיבוד שפה טבעית ובניית דאטהסטים, ציון כזה אומר שהנתונים שלנו רועשים מדי, משלוש סיבות מרכזיות:

א. פגיעה קשה ביכולת ההערכה של מודלים

אנחנו רוצים להשתמש בדאטהסט הזה כסט אבלואציה. אם רמת ההסכמה מעבר למקרה היא רק 30%, המשמעות היא ש-70% מהשונות שאינה מוסברת על ידי מקרה היא פשוט רעש. מודל שייבחן על דאטהסט כזה יצליח גם כשהוא מייצר סתירות, פעם אחת רמה 0, פעם אחרת רמה 3. אם המתייגות לא מסכימות ביניהן, איזו משמעות יש לניחוש מוצלח של המודל?

ב. בעיית המשקולות הריבועיות

קאפה ריבועית נוטה להיות "סלחנית" ולתת ציון גבוה יותר כאשר רוב אי-ההסכמות הן קרובות (למשל, מרחק של דרגה אחת). אם למרות הסלחנות המובנית הזו של המדד הציון שלנו הוא עדיין 0.3+, המשמעות היא אחת משתיים:

יש כמות עצומה של אי-הסכמות קטנות (המתייגות כל הזמן מתלבטות בין הרמות).
יש כמות מדאיגה של אי-הסכמות קשות (למשל פערים של 0 מול 3), שמושכות את הציון למטה בעוצמה רבה .

ג. חוסר בהירות בהגדרות הבלשניות (ההסכמה בין בני אדם)

אם ההסכמה בין המתייגות לבין עצמן היא 0.3+, סימן שמדריך התיוג שלנו אינו חד מספיק. היכן עובר הגבול המדויק בין "ספאן אחד" ל"כמה ספאנים"? מה נחשב "קשר לוגי מובלע" לעומת מידע שפשוט מפוזר בטקסט? אם שתי בלשניות מיומנות מפרשות את אותה שאלה בצורה שונה, המשימה פשוט אינה מוגדרת היטב.

ד. חוסר התאמה מול ג'מיני (ההסכמה מול המודל)

אם ההסכמה מול ג'מיני היא 0.3+, המשמעות היא שהפרומפט שבו אנחנו משתמשים כדי להנחות את ג'מיני לייצר רמה מסוימת (למשל, רמה 3) מייצר בפועל משהו שהגדרתית נתפס אצל בני אדם כרמה אחרת לגמרי.

5. השלב הבא: ניתוח מטריצת הטעויות

כדי לפתור את זה, אנחנו לא יכולים להסתפק רק במספר שנותן "כותרת" כמו 0.3+. אנחנו צריכים לפתוח את טבלת ההצלבה (confusion matrix) ולחפש היכן מתרכזת המסה של אי-ההסכמה - כלומר לא רק האם יש הסכמה, אלא איפה היא מתבטאת.

האם הטעויות מפוזרות סביב האלכסון (ואז הבעיה היא רק חידוד הבדלים עדינים), או שיש לנו "כתמים" בפינות הטבלה (למשל, שאלות שג'מיני הגדיר כרמה 3 והמתייגות סיווגו כרמה 0)? ניתוח כזה יאפשר לנו לתקן את הפרומפטים או לדייק את הנחיות התיוג, ולהביא את הדאטהסט לרמת המהימנות הנדרשת.

6. מטריצות ההצלבה — איפה האי-הסכמות מתרכזות?

נתחיל מהמסקנה של החלק הקודם: ערך ה-κ מספר לנו ש"יש לנו בעיה", אבל לא מאיפה היא מגיעה. בשביל זה צריך לפתוח את טבלת ההצלבה ולראות לא רק *כמה* אנחנו מסכימים, אלא מה ה*צורה* של אי-ההסכמה — האם הטעויות מפוזרות סביב האלכסון, או שהן ממוקמות בפינות הטבלה.

נציג שתי מטריצות, אחת לכל ציר של אי-הסכמה: בין ג'מיני לבני אדם, ובין בני אדם בינם לבין עצמם.

6.1 ג'מיני מול הקונצנזוס האנושי

לכל שאלה שלפחות מתייגת אחת תייגה, חישבנו את החציון של רמת הסיווג שניתנה לה ע"י המתייגות, וקיבלנו "תווית אנושית מצרפית" אחת לכל שאלה. בחרנו בחציון ולא בממוצע מתוך אותה הסיבה שהדגשנו קודם: לסולם שלנו יש סדר, אבל אנחנו לא מניחים שהמרחקים בין הרמות אחידים — והחציון, בניגוד לממוצע, לא מניח את הנחת המרחק הזו. ההשוואה הזו, "בני אדם מצרפית מול ג'מיני", היא עדיין בין שני מתייגים, אז קאפה של כהן רלוונטית.

	H=0	H=1	H=2	H=3	סה"כ
G=0	29	4	1	0	34
G=1	1	74	5	0	80
G=2	40	52	144	1	237
G=3	36	15	54	54	159
סה"כ	106	145	204	55	510

$n = 510$ · $\kappa_{\text{quad}} = +0.343$

שימו לב ש-G זה ג'מיני ו-H זה human

מה בולט:

- רמות 0 ו-1: כמעט מושלם. תסתכלו על השורה הראשונה: מתוך 34 שאלות שג'מיני סיווג כרמה 0, ב-29 (85%) הקונצנזוס האנושי הסכים; מתוך 80 שאלות ברמה 1 (שורה שנייה), ב-74 (93%). היכן שהפרומפט של ג'מיני עובד — הוא עובד מצוין. - רמה 2: ההסכמה צונחת ל-61% (144 מתוך 237). מבין השאלות שג'מיני סיווג כאינטגרציה (רמה 2), 40 קיבלו תיוג אנושי של רמה 0 (אין תשובה!) ו-52 ירדו לרמה 1. - רמה 3: התמונה הקשה ביותר. רק 54 מתוך 159 (34%) קיבלו תיוג אנושי מקביל. 36 שאלות שג'מיני התכוון אליהן כסינתזה מסומנות ע"י המתייגות כרמה 0 — כלומר שהתשובה כלל לא נמצאת בטקסט. 15 שאלות נוספות ירדו לרמה 1 ועוד 54 לרמה 2. במילים אחרות: כשג'מיני מנסה לייצר שאלת סינתזה, הוא נכשל בכ-23% מהמקרים בעצם הימצאות התשובה בטקסט, ובעוד 43% נוספים (69 מתוך 159) מייצר שאלה שבני אדם תופסים כפשוטה ממה שהמודל התכוון — בסך הכול כ-66% מן המקרים בהם המודל אינו עומד ביעד שהוצב לו.

6.2 המתייגות בינן לבין עצמן

כאן הסיפור הסטטיסטי שונה: יש לנו שלוש מתייגות, ולחלק מהמשימות יש שתיים או שלוש תוויות. קאפה של כהן מוגדרת לזוג בלבד, ולכן כשמסכמים את כל זוגות התיוגים (atar–dani, atar–noga, dani–noga) ביחד היא כבר לא הכלי המתאים. במקומה משתמשים ב-Krippendorff's α (אלפא של קריפנדורף) — הכללה רב-מתייגית של אותה אינטואיציה. למעשה, $\alpha$ ו-$\kappa_w$ מתלכדות במקרה הזוגי.

הטבלה למטה היא הצגה ויזואלית של כל זוג תיוגים שנעשה על אותו פריט (לדוגמה, atar תייגה רמה 2 ו-dani תייגה רמה 1 = +1 בתא $[A=2, B=1]$). כל פריט שתויג ע"י שתי מתייגות תורם זוג אחד, וכל פריט שתויג ע"י שלוש מתייגות תורם שלושה זוגות. המטריצה סימטרית כי אין סיבה להעדיף סדר של מתייגת אחת על השנייה — כל זוג נספר בשני הכיוונים.

	B=0	B=1	B=2	B=3	סה"כ
A=0	96	15	33	28	172
A=1	15	114	41	2	172
A=2	33	41	116	20	210
A=3	28	2	20	48	98
סה"כ	172	172	210	98	652

$n_{\text{tasks}} = 278$ · $n_{\text{pairs}} = 326$ · Krippendorff's $\alpha = +0.333$

מה בולט:

- המספר עצמו: $\alpha = +0.333$, כמעט זהה ל-$\kappa = +0.343$ שראינו מול ג'מיני. כלומר: ההסכמה הפנים-אנושית שלנו דומה בעוצמתה להסכמה של הקונצנזוס מול המודל. גם פנימה וגם החוצה — אנחנו בקטגוריית "סבירה" (Fair). - פינות חמות בקצוות. יש 28 מקרים (בכל כיוון) שבהם מתייגת אחת אמרה רמה 0 ומתייגת אחרת אמרה רמה 3 על אותו פריט. אלה אי-הסכמות חמורות שמושכות את ה-$\alpha$ למטה חזק במיוחד בגלל המשקולת הריבועית — כל אחת מהן נכנסת לחישוב במרחק של $3^2 = 9$. - הגבול 1↔2 רועש. 41 מקרים של רמה 1 לעומת רמה 2 — כנראה הגבול הכי שכיח שבו המתייגות מתלבטות. זה "גבול גבולי" שכדאי לחדד בהנחיות. - הגבול 2↔3 גם רועש, אם כי פחות (20 מקרים בכל כיוון, סה"כ 40).

6.3 איפה כדאי להשקיע את המאמץ הבא

מהמטריצות עולות שלוש משימות פעולה מובחנות, מסודרות לפי המסה של אי-ההסכמה:

הפרומפט של ג'מיני לרמה 3 הוא מקור הנזק הגדול ביותר. כשהוא מבקש לייצר שאלת סינתזה, ב-23% מהמקרים השאלה שמתקבלת בכלל לא ניתנת לענייה מהטקסט. הפתרון הוא בקרה בתוך הפרומפט — דרישה מהמודל לאמת שהתשובה נמצאת במסמך לפני שהוא מסווג שאלה כרמה 3. יכול להיות שצריך לייצר עוד פרומפט ולידציה שעושה ריג'קט, ואז rerun.
הגבול בין רמה 2 לרמה 3 לא חד מספיק בהנחיות. גם המודל וגם המתייגות מתלבטות שם. כדאי להוסיף להנחיות 3-4 דוגמאות גבוליות מנומקות — מה הופך שאלה שדורשת חיבור של מספר ספאנים ל"אינטגרציה" (רמה 2) מול "סינתזה" (רמה 3).
הגבול בין רמה 1 לרמה 2 הוא הבעיה השכיחה השנייה. הצורה הקלאסית: שאלה שאפשר לענות עליה ממשפט אחד נדיב, או שדורשת חיבור של שני משפטים סמוכים? אותה התרופה — דוגמאות מנומקות בהנחיות.

המטרה היא לא להגיע ל-$\kappa = 0.9$ (כפי שמופיע במפרט המקורי) — זו רמה שלא ריאלית למשימת סיווג קוגניטיבית כמו זו, גם אחרי כיול אינטנסיבי. יעד ריאלי יותר הוא $\kappa_{\text{quad}} \geq 0.6$, שמספיק כדי לפרסם את הדאטהסט כסט הערכה אמין.