Custom Search
סקר ifeel

איך אתם מעבירים לילדיכם את חשיבות הפעילות הגופנית?






הצבע

stock.xchng

איך דקדוק נולד

תינוקות מגיעים לעולם ללא כל ידע לגבי המלים והכללים של שפת אמו, ובכל זאת הוא רוכש שפה. האם נוכל לייצר מחשבים דומים? התחלה מבטיחה נצפתה באוניברסיטת ת"א

ישראל בנימיני | גליליאו
16/01/2007




תינוק בא לעולם ללא כל ידע מוקדם של המלים והכללים של שפת אמו. על פי האסכולה שייסד נועם חומסקי, העקרונות התחביריים שביסוד השפה הם מולדים, וקיומם חיוני על מנת שהתינוק יוכל לרכוש במהירות את השפה. לפי אסכולות אחרות, רכישת השפה מתבססת על תהליכים רב-תכליתיים במוח, שמנוצלים גם עבור הכללת מבול פרטי השפה, ופיתוח מיומנויות לשוניות.

כך או אחרת, האתגר שעומד בפני התינוק הוא מרשים: זיהוי החלקים הרלוונטיים בתוך שפע המידע האקוסטי שהוא קולט, כמו גם מידע מחושים אחרים; זיהוי תבניות דומות - כי הרי לרוב לא תושמע מלה מסוימת בדיוק באותה צורה; הבנה של הדרך שבה צירוף מילים מרכיב משמעות; הכללה של מבנים לשוניים שכבר מוכרים לכאלו שעשויים להיות קיימים וכו'. למעשה, אחת התרומות של תחום הבינה המלאכותית היא ב"כישלונות מפוארים" שהעשירו את הבנתנו עד כמה מורכב אתגר זה.

הגישה הסטנדרטית לבניית שפות מחשב - לפחות מחוץ לתחום הבינה המלאכותית - שונה לחלוטין: המילים מוגדרות מראש, בצורה בלתי-ניתנת לשינוי (נקראות לרוב "מילים שמורות"), וכך גם סדר ההופעה שלהן במשפט. דוגמה פשוטה היא השפה של שורת הפקודה (command line) - שפה שנדחקה אל מחוץ לתודעתם של רוב המשתמשים עם החלפתה בשפה פשוטה יותר - השפה הלא-מילולית של "הצבע והקלק" (point and click). בשורת הפקודה של Windows, למשל, המחשב "יודע" (מתוכנת) - והמשתמש נדרש לדעת - כי המשפט הנדרש למחיקת קובץ הוא "delete MyFile". המילה MyFile בדוגמה זו אינה מילה שמורה, שהוגדרה מראש, אלא היא פשוט שֵם של קובץ. מדוגמה זו אפשר להסיק כי הדקדוק בשפת מחשב פשוטה זו מחייב כי המשפט יתחיל במילת ציווי (בדוגמה זו - delete) ולאחריה יבוא שם. למעשה הדקדוק מורכב במעט יותר, אך עדיין פשוט. הדקדוק של שפות התכנות מורכב יותר מאשר הדקדוק של שורת הפקודה, אך לשני הדקדוקים משותפת ההגדרה הקשיחה של כל כללי שפת המחשב מראש. להבדיל מבן אנוש, המחשב אינו פועל בדרך רב שלבית, שתחילתה בידע מינימלי; המחשב מתוכנת מראש עם כל חוקי השפה.

זוהי תכונה טובה עבור שימושים רבים של שפות מחשב: גם כי רובנו לא מעוניינים להשקיע חודשים בהוראה סבלנית של השפה למחשב (אך בעיה זו ניתנת לפתרון על ידי הוראת השפה פעם אחת ושכפול המחשב) וגם כי המחשב חסר את הבינה הטבעית שעשויה להציל אדם שהבין לא-נכון הוראה כלשהי; אך הסיבה העיקרית שמחשבים אינם לומדים שפה כמו תינוקות היא שאיננו יודעים איך ליצור מחשבים כאלה.

בלי ידע מוקדם

האם אפשר ליצור תוכנת מחשב חכמה מספיק ללמוד שפת אנוש? צעדים מבטיחים הושגו במחקר משותף של מעבדת מערכות מורכבות (CNS - Complex Network Systems) באוניברסיטת תל אביב, המנוהלת על ידי פרופסור איתן רופין, יחד עם פרופסור דוד הורן מבית הספר לפיזיקה ואסטרונומיה באוניברסיטת תל אביב ופרופסור שמעון אדלמן מהמחלקה לפסיכולוגיה באוניברסיטת קורנל (Cornell) בארה"ב. פרוייקט המחקר, המכונה ADIOS - ראשי תיבות של Automatic DIstillation Of Structure("זיקוק אוטומטי של מבנה"), פותח במסגרת עבודת הדוקטורט של צח סולן מבית הספר לפיזיקה ואסטרונומיה.
תוכנת המחשב סורקת "קורפוס" - אוסף של משפטים בשפה מסוימת. אין הכוונה רק לשפה אנושית מילולית, אלא לכל אסופת סדרות של סימנים, דוגמת הקוד הגנטי או רצף של תווי מוזיקה. ניתוח הטקסט על ידי ADIOS מתחיל בתהליך של זיהוי "מוטיבים" - תבניות חוזרות - המופיעים במשפטים שונים. מוטיב ניתן לזיהוי אם אפשר לנבא, בהסתברות מעל סף מסוים, איזה מילה תבוא לאחר מילה או סדרת מילים ידועה. ליתר דיוק, המערכת מזהה את גבולות המוטיב על ידי סריקת המשפטים לשני הכיוונים ואיתור אותן מקומות בהן יש קושי לנבא את המילה הבאה מתוך רצף המילים הקודמות - אולם זה אולי מסובך מדי. למשל, אם נבחן קורפוס של שאלות שהפנו אנשים למרכזי שירות של חברות תעופה (ניסוי שבוצע הלכה למעשה), סביר שנמצא כי בחלק ניכר מהמשפטים שבקורפוס שבהם מופיעה המילה "איזה", תבוא לאחריה המילה "אוכל". במצב כזה, יזהה ADIOS את סדרת המילים "איזה אוכל" כמוטיב. כל מוטיב שהתגלה מקבל שם מזהה. לצורך הדוגמה ניתן למוטיב שמצאנו כאן אם השם "P105". בצורה דומה, עשויה להימצא גם התבנית "איזו ארוחה" שתסומן, נניח, כ "P106". אחד הרעיונות החדשניים של ADIOS הוא יצירה של רמות הירארכיות: ADIOS מתנהג כאילו נוספו לקורפוס משפטים חדשים שבהם מופיע המוטיב "P105" במקום המילים "איזה אוכל" ו- "P106" במקום "איזו ארוחה". אם נחזור על חיפוש המוטיבים בניתוח משפטים חדשים אלה, נוכל אולי לגלות הופעת מוטיב חדש ומוכלל, המתחיל באחת מה"מילים" P105 או P106, ונמשך באחת מהמילים "מוגש\ת" או "מקבלים".



  דקדוק שנבנה בצורה אוטומטית
דקדוק שנבנה בצורה אוטומטית

תמונה 1 מראה בצורה גראפית המשך של דוגמה דומה לזו, בשפה האנגלית. העיגולים הכחולים מציינים כי אפשר להחליף אותם בכל אחד מהעיגולים המופיעים מתחתם. את העיגולים האדומים יש להחליף בסדרה של מילים שתתקבל על ידי בחירה של כל אחד מהעיגולים המופיעים מתחתם, בקריאה משמאל לימין. תהליך החלפות זה נמשך עד שיבחרו עיגולים ירוקים מהשורה התחתונה בלבד. ניתן להרכיב מהגרף את המשפטים "what sort of food is available" ו- "what meals would be served". מגרף זה אפשר לשער כי למילים "meal" ו- "food" יש תפקיד דומה. השערות כאלה זו עשויות להיות מוצדקות במקרים מסוימים, מוטעות לחלוטין במקרים אחרים, או שנכונותן תלויה בהקשר של המשפט. ADIOS כולל בתוכו מספר מנגנונים למניעת טעויות של הכללת-יתר או של זיהוי ההקשר שבו מותרות הכללות.

הגרף בתמונה 1 מבטא למעשה פלח מזערי מכללי הדקדוק של השפה האנגלית. כללי דקדוק אלו הוסקו מתוך שיחות אמיתיות, ולכן הוא משקף גם טעויות שכיחות, סלנג וכו'. טבעו ההירארכי של תהליך חשיפת כללי הדקדוק ב- ADIOS מאפשר לזהות קשר בין מילים המרוחקות זו מזו במשפט, והוא מאפשר לזהות דמיון או קשרי-גומלין לא רק בין מילים בודדות אלא גם בין ביטויים מורכבים שלכל אחד מהם עשוי להיות מבנה פנימי מורכב משל עצמו.



  חלוקה אוטומטית של טקסט למילים
חלוקה אוטומטית של טקסט למילים

שפות בכל מקום

בנוסף למאגרי משפטים אחרים, הפעילו סולן ושותפיו למחקר את ADIOS גם על סוגים אחרים של "שפות". לדוגמה, טקסט הפתיחה של הספר "אליסה בארץ הפלאות" שממנו הוצאו כל הרווחים שבין המילים (הקטע העליון של תמונה 2). כאשר הוצגו ל- ADIOS רצפי אותיות אלה, כשכל אות תופסת את תפקיד המילה שבדוגמה הקודמת, זיהתה התוכנה תבניות חוזרות. באותו טקסט ניתן לצפות (הקטע התחתון של תמונה 2) כשהמעבר בין המוטיבים השונים מסומן על ידי החלפת צבע - מירב המרווחים (כ- 95%) בין המילים זוהו בצורה נכונה. אין זה תרגיל אינטלקטואלי בלבד, שכן אחד מהמכשולים הגדולים ביותר עבור תוכנות הוא האופן שבו דוברים אנושיים מדברים ברצף מבלי לעצור בין מילה למילה. מעניין כי מכשול זה אינו מפריע למאזינים אנושיים, ורבים מופתעים לגלות כי אם קיימים מרווחים "שקטים" בתוך משפט, הם מופיעים לאו דווקא במעבר בין מילים. נראה כי הבינה הטבעית כוללת מנגנון כלשהו המזהה את גבולות המילים לפי הקונטקסט. ADIOS אינה התוכנה הראשונה הכוללת מנגנון בעל יכולת כזו, אך היא כנראה הראשונה שבה מנגנון זה אינו תלוי בידע מוקדם כלשהו.

מאגרי מידע נוספים שבחן צוות ADIOS כוללים תרגומים של התנ"ך לשפות שונות, רישום שיחות של הורים עם ילדים, ומידע ביולוגי כמו הגנום של שמרים.

באחד הניסויים, השתמשו החוקרים בדקדוק שנוצר אוטומטית ממאגר משפטים באנגלית במבחן המשמש להוראת אנגלית לתלמידי תיכון בשבדיה, בו נדרשים הנבחנים להשלים מילים חסרות. הציון של ADIOS במבחן זה היה 60, לעומת הציון הממוצע של התלמידים - 65. נציין כי ביצועים אלה הושגו על אף שמאגר המשפטים ששימש לבניית הדקדוק לא היה מתאים במלואו למשימה כיוון שנאסף משיחות בין הורים לילדים בני שלוש ששפת אמם היא אנגלית.

בניתוח המידע הביולוגי, כאשר כל חומצת אמינו מהווה "מילה" וכל חלבון הינו "משפט", זיהה ADIOS את המוטיבים בחלבונים שונים. סיווג החלבונים לקבוצות שונות על פי שכיחות המוטיבים השונים בכל חלבון, הביא להתאמה של 95% לסיווג החלבונים על פי פעילותם הביולוגית. ADIOS לא קיבל כל מידע לגבי המבנה וצורת הקיפול של החלבון במרחב, שהם הקובעים את פעילותו. במחקר החלבונים נחשבת ההסקה על המבנה המרחבי של החלבון, מתוך סדר חומצות האמינו ברצף כבעיה קשה לפיצוח. ADIOS אינו פותר בעיה זו, ואין הוא מזהה את דרך פעילות החלבון, אך הצלחתו מרשימה לנבא לאילו חלבונים תהיה פעילות דומה.

מדקדוק למשמעות

כללי הדקדוק שתוארו לעייל אינם נוגעים במישרין במשמעות של המשפטים. ADIOS אינו מנסה לשייך משמעות כלשהי למילה שמופיעה במשפט או למוטיב שזוהה בקורפוס. איזו תועלת איפה, ניתן להפיק מכך? ראשית, הצלחתו של ADIOS היא בפני עצמה תרומה משמעותית להבנתנו את השפה ומהווה תוספת למאגר הכלים העומדים לרשות הבלשנים. לדוגמה, השוואה בין הצורות של המוטיבים המתגלים בניתוח תרגומי התנ"ך מאפשרת להסיק על "עצי המשפחה" של השפות: הניתוח מראה, בין היתר, כי דנית ושוודית הן שפות אחיות קרובות, וכי יחד עם אנגלית וצרפתית הן מהוות משפחה הרחוקה מהשפה הסינית. זוהי אינה, כמובן, תגלית חדשה, אך היא מלמדת על הפוטנציאל שמהווה ADIOS לתחום הבלשנות. גם לפסיכולוגים העוסקים בדרכי לימוד ועיבוד שפות יש עניין בתוצאות המחקר. גם אם אין כל דמיון בין תהליך הלמידה של ADIOS לבין למידת שפה על ידי בני אדם, המחקר יוכל לעזור להבהיר מה מיוחד בלמידה האנושית.

יש גם שימושים מעשיים לטכנולוגיה זו כמו השימוש ב-ADIOS כמודל של שפה. מודל של שפה הינו רכיב הנמצא בכל מערכת לזיהוי דיבור או כתב והמנבא את ההסתברות למילה הבאה ברצף, מתוך המילים שקדמו לה. מערכות הזיהוי עושות שימוש בכללי הדקדוק על מנת לנפות משפטים לא סבירים כחלק מתהליך הזיהוי. עד היום ניתן היה להפיק את כללי הדקדוק באופן ידני בלבד, ADIOS לראשונה יאפשר יצירה של מערכת כללים מקיפה ומדויקת בעלות הרבה יותר נמוכה.

שלישית, מחקרים מסוג זה תורמים מבט מרענן על שאלות, שהיו מאז ומעולם נושא לוויכוחים נוקבים. לדוגמה, מבחן השלמת המילים באנגלית שתואר לעיל אינו יכול להבחין בין תשובות ADIOS לבין תשובות תלמיד בעל יכולת הנמוכה אך במקצת מהממוצע. האם יש בכך הקבלה בין תהליך עיבוד השפה אצל אדם לזה שמבצע המחשב? מובן שיש דרכים אחרות לבדוק את הבנת הנקרא בקרב התלמידים, למשל על ידי שאלות לגבי מניעיהן של הדמויות שתוארו כחלק מהטקסט. אם כן, מהי בדיוק אותה "הבנה" שיש לנו, בני האנוש, ושחסרה ל- ADIOS?

פרויקט ADIOS, בפני עצמו, אינו יכול לפתור דילמות מסוג זה, אך הוא ממחיש כיצד יכול שיתוף פעולה בינתחומי, בין מדעני מחשב, פיזיקאים ופסיכולוגים לתרום גם לתחומים אחרים, דוגמת ביולוגיה, בלשנות ופילוסופיה.

קישורים

אתר פרויקט ADIOS

אתר מעבדת מערכות מורכבות באוניברסיטת תל אביב

 

תודה לצח סולן על עזרתו האדיבה ועל הערותיו לטיוטת המאמר

מתוך: מגזין גליליאו

לעשיית מנוי, לקבלת גיליון מתנה



למועדפים שלח לחבר הדפס

תגובות