אילוסטרציה: ASAP Photos
זיהוי ממוחשב
האם יוכלו מחשבים לזהות את ארץ המוצא של אדם ע"י אופן דיבורו?
ישראל בנימיני | מגזין גליליאו
21/06/2009
הירשמו לניוזלטרים של ifeel, וכל הכתבות הכי חמות בדרך אליכם
לעתים קרובות אנו מצליחים לנחש את ארץ המוצא של אדם לאחר שנשמע אותו אומר רק כמה מילים. כמו יכולות אנושיות רבות, גם יכולת זו זוכה כעת לתשומת לבם של חוקרי בינה מלאכותית, השואפים ללמד מחשבים כיצד להתחרות בכישורי זיהוי המוצא האנושיים.
הבדלי שכיחויות של אותיות בודדות בשפות השונות עלולים להיות לא מספיקים עבור הבחנה בין שפות קרובות
לאחרונה הציגה מעבדת לינקולן של המכון הטכנולוגי של מסצ'וסטס (MIT) תוכנה העושה צעד משמעותי בכיוון זה. התוכנה, שאותה פיתח פדרו טורס-קרסקווילו (Torres-Carrasquillo) ושותפיו בקבוצת טכנולוגיות מערכות מידע במעבדת לינקולן, יכולה להבדיל בין זוגות מבטאים נתונים. לדוגמא, אנגלית במבטא "כלל-אמריקאי" מול אנגלית במבטא הודי, או ספרדית של ילידי קובה מול ספרדית של ילידי פורטו-ריקו.
לדבריו של טורס-קרסקווילו, זוהי התוכנה הראשונה המצליחה להבדיל בצורה אוטומטית בין מבטאים שונים באותה שפה (להבדיל מתוכנות המספקות אנליזה של דגימות הדיבור למומחה אנושי, כדי לעזור לו להבדיל בין מבטאים). הישג זה הוא צעד נוסף בהתקדמות הרבה שהושגה בשנים האחרונות בזיהוי אוטומטי של שפה מדוברת. הבעיה המקבילה - זיהוי השפה שבה נכתב טקסט − קלה יותר, וקיימים בעבורה פתרונות רבים. דוגמה לתוכנה כזאת היא TextCat ,השואפת לזהות 69 שפות שונות מתוך טקסט כתוב, כולל אידיש, וֶלשית וטאמילית. אחד השימושים של פתרונות אלה הוא במנועי חיפוש, כדי לעזור למשתמש לחפש טקסטים בשפה מסוימת או כדי להציע תרגום לשפתו של המשתמש.
לניתוח לפי שכיחויות אותיות יש שימושים רבים [אילוסטרציה: ASAP Photos]
מודלים של שפה
TextCat משתמשת בטכניקה הנקראת "N-Gram". בטכניקה זו אפשר לאפיין את התכונות הסטטיסטיות של טקסט בשפה מסוימת על-ידי חישוב ההסתברות של הופעת סדרת אותיות באורך N, בעבור כמה ערכים של N, על-ידי סריקת טקסטים אופייניים באותה שפה. כאשר N=1, ההסתברות מבטאת את שכיחות האותיות בשפה הנתונה. לדוגמא, האות q מופיעה באנגלית בשכיחות של כ-0.1%, אך שכיחותה בספרדית היא 0.9% ובצרפתית 1.4%. לכן, אפשר להשתמש בשכיחות האות q בטקסט שאנו רוצים לזהות כדי לבחור בין ההשערות כי הטקסט כתוב באנגלית, בצרפתית או בספרדית (בכמה שפות אחרות הנכתבות באלפבית הלטיני, כמו טורקית, q אינה קיימת כלל). כמובן שבצורה דומה אפשר להשתמש גם בשכיחויותיהן של אותיות אחרות.
לניתוח לפי שכיחויות אותיות יש שימושים רבים (כמו בהצפנה, כפי שתיאר אדגר אלן פו בסיפורו "חיפושית הזהב" כבר בשנת 1843), אך אין בו די בעבור זיהוי שפות, מכיוון שהבדלי שכיחויות של אותיות בודדות בשפות השונות עלולים להיות לא מספיקים עבור הבחנה בין שפות קרובות.
לשם כך, יש צורך להשתמש גם בערכי N גבוהים יותר: ניתוח בעבור N=2 נותן את השכיחות של זוגות אותיות (לדוגמא, באנגלית שכיחות הזוג "TH" גבוהה פי 15 משכיחות הזוג "HT"), N=3 עוסק בשלשות של אותיות וכו'. ככל ש-N גדול יותר, טבלת השכיחויות גדולה יותר, וחלק מהסדרות הופך להיות נדיר מכדי לשמש בניתוח סטטיסטי של הטקסט הקצר שברצוננו לשהות, ולכן יש לבחור בקפידה את N ו"לדחוס" את הטבלאות כדי לכלול רק את המקרים השימושיים מבחינה סטטיסטית. (הערה: באלפבית המשמש את השפה האנגלית יש 26 אותיות אבל 262=676 זוגות אותיות ויותר מ-17,000 שלשות; נכון אמנם כי לא כל האפשרויות קיימות באנגלית - לדוגמא, לאחר q תבוא רק u - אך יש להתייחס גם לסימני פיסוק, ובראשם הרווח המפריד בין מילים.
כאשר מנתחים אוסף של טקסטים הידועים כשייכים לשפה נתונה בשיטה כמו N-Gram, מתקבל "מודל של השפה". מודל זה כמובן מחמיץ כמעט כל מה שחשוב בעבור אותה שפה לבלשן או למשתמש בשפה, וּודאי שאינו מכיל אף רמז על תחביר (שלא לדבר על דקדוק). למרות זאת, זהו "מודל מלא" של השפה, כלומר הוא מכיל את כל המאפיינים של השפה שאפשר לזהותם מתוך נקודת המבט של שכיחות ההופעה של סדרות אותיות (ולכן אפשר להשתמש במודל, לפחות כשעשוע, כדי לייצר טקסטים מתוך טבלאות השכיחויות על-ידי בחירה של האות הבאה לפי ההסתברות של הופעת כל אות לאחר האותיות שכבר בחרנו; בעבור N=4 מתקבל בדרך כלל טקסט שרבות ממילותיו אינן מובנות, אך הנראה לקורא האנושי כשייך לשפה שממנה נוצר המודל).
לאחר שנוצר מודל כזה בעבור כמה שפות, אפשר לזהות טקסט בשפה שאינה ידועה על-ידי ניתוח שכיחות ה-N-Grams באותו טקסט והשוואת שכיחויות אלו לשכיחויות שאותן מבטאים המודלים הידועים של השפות ה"מועמדות" (אותן שפות שבעבורן יש ברשותנו מודל). מכיוון שלא סביר כי נמצא מודל בעל שכיחות הזהה בדיוק לזו שבטקסט שלפנינו, נשתמש בכלים סטטיסטיים כדי לחשב את ההסתברות כי הטקסט מתאים לכל אחת מהשפות המועמדות.
בחלק השני של הכתבה: עוד על זיהוי ממוחשב של מוצא האדם ועל שימושים מעשיים באפשרות זו»
מתוך: מגזין גליליאו
לעשיית מנוי, לקבלת גיליון מתנה
גולשים שקראו כתבה זו התעניינו גם ב:
4 ליבות בדרך למחשב השולחני
נדבי נוקד
צילום: ישראל הדרי