דיבור באוויר
בסדרת "מסע בין כוכבים" המקורית, היו מחשבים בעלי ממשק דיבור, אפשר היה לתת למחשב פקודות קוליות ולקבל תשובות בקול. כדי להתחיל שיחה כזו, היה הגיבור נדרש ללחוץ על כפתור - כנראה כדי להבהיר למחשב שהמשפט הבא מכוון אליו.
השנים עברו, והטכנולוגיה התקדמה. בסדרה "מסע בין כוכבים - הדור הבא", כל מה שהיה צריך לעשות כדי לפנות אל המחשב היה להתחיל את המשפט במילה "מחשב". לכאורה, יש בכך הרבה הגיון: גם כשאנו פונים אל אדם אנו לעתים קרובות פותחים את המשפט בקריאה בשמו. אבל האם נמשיך לעשות זאת בכל משפט נוסף?
בעיה נוספת היא האפשרות שהמלה "מחשב" תיאמר בשיחה בין שני אנשים, והמחשב יפרש בטעות את המילים שיבואו אחריה כפקודה. ומה אם מישהו בחללית מדבר עם משפחתו שעל כדור הארץ ומדריך אותם לפני יציאה לחופשה: "לכבות את המזגן, לכבות את המחשב, לכבות הכול", והמחשב קולט את הפקודה "מחשב, לכבות הכול"?
בספר "עצי האינטגרלים" של לארי ניבן (1984Niven, ), בעיה זו נפתרת על ידי שימוש במלה שלא סביר שתופיע בשיחה בכל משמשות אחרת: ניבן בחר במלה "פריקזיווט", השאולה מהשפה הרוסית במשמעות "פקודה". אם הגיבורים אינם מדברים רוסית, יש להניח כי כל הופעת מלה כזו היא אכן פנייה אל המחשב (אבל איך נסביר זאת למישהו שאינו יודע, כאשר המחשב מקשיב?).
כך או אחרת, נראה כי שתי הגישות מחייבות תשומת לב מיוחדת, ולמרות זאת הן עדיין פגיעות גם לטעויות של אי-זיהוי (פקודה שהמחשב לא קלט) וגם לטעויות של זיהוי מוטעה (שיחה שהמחשב מזהה בטעות כפקודה). שתי הבעיות קיימות גם בשיחות בין בני אדם, אבל שם אנו מוגנים במידה רבה על ידי הבינה הטבעית, שתגרום לשני המשוחחים לגלות טעויות כאלו ולתקן אותן. נראה כי יצירות המדע הבדיוני שהוזכרו הניחו כי המחשבים ביצירותיהם אינם מגיעים לרמה כזו. יצירות אחרות, שבהן המחשבים תבוניים יותר, מציגות שיחות "נורמליות" בין אדם למחשב כדבר מובן מאליו, כמו בצורה שבה מוצג המחשב HAL בסרט "אודיסיאה בחלל 2001" של סטנלי קובריק וארתור קלארק.
דיבור בחלל
ומבדיון למעשה: בנאס"א הצליחו להשיג, תוך שימוש בטכנולוגיות עכשוויות, יותר ממה שדמיינו מחברי חלק מיצירות המד"ב שהוזכרו, וליצור מחשב שמסוגל, למרות בינתו המוגבלת, לקחת חלק בתהליכי עבודה של אסטרונאוטים במעבדת החלל הבינלאומית (ISS - International Space Station) ללא צורך בצורת פנייה מיוחדת ומסורבלת. פרויקט זה, ששמו קלאריסה , הופעל בחלל בפעם הראשונה ב- 27 ליוני 2005, על ידי מהנדס הטיסה וקצין המדע של משלחת 11 ל- ISS, ג'ון פיליפס. בפעולה משותפת של פיליפס עם קלאריסה, שנמשכה כשלושים דקות, הופעלו בהצלחה כל הפונקציות העיקריות. לפי נאס"א, זה היה השימוש הראשון של מערכת דיאלוג דיבור בחלל.
על כדור הארץ, מערכות דיאלוג דיבור כבר אינן חדשות: מערכות כאלו פותחו בשנות השמונים והופעלו בשנות התשעים. כיום אפשר למצוא יכולות כאלו המותקנות בהרבה מחשבים ביתיים, למרות שרוב המשתמשים אינם יודעים כי המחשב שלהם מסוגל לכך. הסיבה להתעלמות הכמעט-מוחלטת של המשתמשים אינה חוסר ידע או פחדים מטכנולוגיה: עבור רוב השימושים, דיאלוג דיבורי הוא הרבה פחות יעיל שימוש בעכבר ובמקלדת. דוגמה מעוד יצירה בדיונית יכולה להמחיש זאת: בסרט "בלייד ראנר" (1982, במאי: רידלי סקוט), יושב הגיבור מול מסך מחשב ומנסה לדלות פרטים מתוך תמונה דיגיטלית על ידי פקודות קוליות בסגנון "שמאלה; עוד קצת; התמקד באיזור בגודל 100X100 סביב הסמן; הגדל פי 5; ...". השוו תהליך זה למה שאנו עושים באמת כיום כדי לבצע משימה דומה: שימוש בסמן העכבר כדי להזיז את התמונה, לסמן קטעים ממנה, לשנות את ההגדלה וכו'. אולי זה דורש קצת אימון, אבל ילדים קטנים כבר מסוגלים לכך, ונראה כי אינטראקציה כזו נותנת תחושה של שליטה מדויקת, ולכן קלה הרבה יותר לשימוש מאשר פקודות בדיבור.
אם כך, לאילו צרכים יכול להתאים ממשק קולי? אלה המקלידים לאט ובשגיאות יעדיפו אולי להשתמש בהכתבה של טקסט למחשב, אבל שימוש כזה דומה יותר למונולוג. פרט לכך, מערכות הכתבה ממוחשבות עדיין אינן יעילות מספיק עבור רוב המשתמשים, בגלל מגבלות טכנולוגיות שחלקן יוזכרו בהמשך. נראה כי התחום החשוב ביותר לשימוש בממשק קולי הוא הפעלה על ידי אנשים בעלי מוגבלויות פיזיות, אך יש סיבות נוספות מדוע ערוץ הדיבור עשוי להיות הערוץ היעיל ביותר.
המהפכה הקולית השקטה
באילו נסיבות הדרך היחידה שלנו לתקשר היא דיבור? המצב השכיח ביותר הוא שיחת טלפון. לדוגמה, שירות המודיעין הטלפוני של ארצות הברית מטפל במיליארדי קריאות בשנה - כולן מאותו סוג (בקשה למציאת מספר טלפון). כיום נדרשים אנשים כדי לבצע כל חיפוש כזה, והתקציב הנדרש לכך הוא גדול מספיק כדי להוות אבן שואבת לכל מי שיוכל להחליף אנשים אלה בשירות ממוחשב. החלפה כזו תוכל לתרום גם למקבל השירות: מידע זול יותר המתקבל בצורה נוחה ומהירה יותר. בארצות הברית כבר פועל שירות כזה, בחיוג למספר 1-800-555-1212. כמה ארגונים גדולים מפעילים כלים דומים. לדוגמה, כמה חברות תעופה מפעילות בשנים האחרונות שירות טלפוני שעונה לשאלות כמו "מתי מגיעה טיסה XY311?", או "מה מזג האוויר בבוסטון?". שירותים כאלה מחליפים כוח אדם אנושי, ובכך מורידים את עלותה של כל שיחה. הם גם מחליפים שירותים ממוחשבים המבוססים על תפריטים ("לחץ 1 למידע על מזג אוויר; לחץ 2 למידע על נחיתות"), שאינם אהודים על הציבור.
מדוע טכנולוגיה המצליחה לבצע משימות כאלה נכשלת בדרך כלל במשימות של הכתבת טקסט? עיקר התשובה נעוץ במגוון המצומצם של אינטראקציות אפשריות בין האדם לבין התוכנה. אם 90% מכל הפניות לקו טלפון מסוים של חברת תעופה עוסקות בלוחות זמנים, אז אפשר ליצור רשימה קצרה של טקסטים שעשויים להיאמר, ולהדריך את המחשב איך לטפל בכל צורה כזו. לרשימה כזו של פניות ומשמעויותיהן נהוג להתייחס כשפה מצומצמת עם דקדוק מוגדר היטב. קיום שפה כזו הוא התנאי לשימוש מוצלח בטכנולוגיות הבנת הדיבור של היום. לכל פנייה החורגת מדקדוק זה תענה התוכנה כי הבקשה לא הובנה, וכאן קיימת הזדמנות להסביר לפונה באיזה שאלות יודעת התוכנה לטפל, ולהציע העברת השיחה לנציג שירות אנושי.
דיאלוגים בין אדם למחשב
כאשר כל פרט הוא קריטי
הסיבות לשימוש בדיאלוג קולי בפרוייקט קלאריסה ממחישות סוג אחר של צרכים: למרות שהאסטרונאוט נמצא בקרבת מחשב, הוא עסוק בתפעול מערכות מורכבות כמו איסוף וניתוח דגימות אספקת המים של תחנת החלל, או בדיקת חליפות חלל. מטלות כאלו דורשות ריכוז והקפדה. עד להפעלת קלאריסה, אסטרונאוטים היו קוראים מסמכים ארוכים של הוראות ביצוע לכל מטלה, ומוודאים ביצוע כל צעד. הממשק הקולי מאפשר לאסטרונאוט לקבל הדרכה מפורטת לכל צעד בלי להסיר את עיניו מהמכשור, לומר את תוצאות המדידות שהוא מבצע, כמו גם לקפוץ לחלק אחר של המסמך ולחזור למקום שבו היה.
קלאריסה מגיעה לרמת אמינות גבוהה, אבל היא לפעמים טועה בהבנת הבקשות שמפנים אליה האסטרונאוטים - אחרי הכל, גם בשיחה בין בני אדם מתגלעות אי-הבנות. בצורה דומה להתאוששות מאי-הבנות בשיחות אנושיות, האסטרונאוט יכול לגלות טעויות לפי תגובתה של קלאריסה לדבריו, ולתקנן.
מעניינת במיוחד הדרך שבה בחרה נאס"א להחליט מתי אמירה מסוימת מופנית לקלאריסה. אין צורך באמירת מלה מיוחדת בתחילת המשפט - קלאריסה פועלת עם "מיקרופון פתוח" ומנסה לפענח כל מה שנאמר בסביבתה. נאס"א, בשיתוף עם חוקרים מחברת XEROX, הקדישה מאמץ מיוחד להבדלה אוטומטית בין משפטים המופנים לקלאריסה לבין כל אמירה אחרת. הפתרון שנבחר מבוסס על רעיונות שהוכיחו את כוחם בסינון דואר אלקטרוני וזיהוי "דואר זבל". כל משפט מועבר דרך מסנן המעריך את ההסתברות כי משפט זה אכן דורש התייחסות. המסנן פועל על ידי למידה של משפטים שסיווגם (כרלוונטיים או לא) כבר ידוע, ואיסוף סטטיסטיקות על השכיחות של הופעת מילים וצירופי מילים שונים בכל סוג של משפט.
מחשבים מדברים - ומחשבים מקשיבים - כבר ממלאים צרכים חשובים, מתהליכים יום-יומיים כמו חיפוש מספר טלפון ועד תהליכים הקריטיים לחיי אדם כמו וידוא תקינות חליפות חלל. בעוד זמן לא רב, נראה שלביטוי "דבר אל הקירות" תהיה משמעות שונה לגמרי ממשמעותו כיום.
16.08.06
(עודכן ב - 24.02.09)