"לכל המפלגות הם להיות טייסי מטוס פסטה עם הממשלה שלך." כך, לפי חידוש ניסיוני באתר יוטיוב, אמר ניק קלג, מנהיג המפלגה הליברלית-דמוקרטית באנגליה, בדברי הסיכום שלו לעימות הטלוויזיוני הראשון בין המועמדים לראשות ממשלת אנגליה ב-15 באפריל השנה.
האם הערה זו היא שגרמה לכך שמפלגתו של קלג הצליחה בבחירות פחות ממה שצפו הסקרים? לא, מכיוון שקלג לא אמר בדיוק כך. הוא אמר: "two old parties have been playing ‘pass the parcel’ with your government", ולפי מנגנון התמלול האוטומטי של חברת גוגל (שאתר יוטיוב בבעלותה), דבריו היו: to all parties they're being plane pilots the pasta with your government"".
איך הפך "החבילה עוברת" ("pass the parcel", משחק ילדים במסיבות ובימי הולדת) ל"להיות טייסים במטוס פסטה"? מתברר שתמלול – הפקת תעתיק טקסטואלי מתוך הקלטת דיבור – הוא עבודה קשה אפילו בעבור אנשים מיומנים, כמו שיודע כל מי שניסה לקרוא תעתיקים כאלה ולהבין מה בעצם נאמר במקור. טכנולוגיות התמלול האוטומטי של היום עדיין אינן מתחרות בביצועיו של מקצוען אנושי, כך שהשכיחות הגבוהה של טעויות אינה מפתיעה. קל למצוא בטעויות אלה מקור לשעשוע, כל עוד השעשוע אינו מסתיר מאיתנו את הפוטנציאל של שינוי מהפכני בתקשורת ובצריכת מדיה.

דג בבל? (אילוסטרציה: א.ס.א.פ קריאייטיב |Irina Tischtenko, Shutterstock )
תרגום ניסיוני
טכנולוגיות של תמלול אוטומטי נמצאות בפיתוח כבר עשרים שנה לפחות. עד עתה הדרך העיקרית להתנסות בהן, בעבור מי שאינם חוקרים המתמחים בתחום, הייתה לרכוש תוכנה מסחרית, להתקין אותה ואז ללמוד כיצד להשתמש בה. מגבלה זו היא עתה נחלת העבר. כמו טכנולוגיות מתקדמות רבות נוספות, גם תמלול אוטומטי הוא מעתה זמין לקהל הרחב, ובחינם.
בחודש מרס השנההוסיפה חברת גוגל, בלי רעש וצלצולים, כפתור קטן לאתר יוטיוב מתחת או לצד סרטים שהשפה המדוברת בהם היא אנגלית. על הכפתור מופיעות האותיות "cc", ולחיצה עליו מאפשרת לבחור תמלול ("Transcribe"). התוכנה מציגה אזהרה כי השירות ניסיוני, ומיד לאחר מכן מופיעות בתחתית הסרט כתוביות בהתאמה – מוצלחת יותר או פחות – למילותיהם של הדוברים.
השירות משתמש באותן טכנולוגיות "דיבור לטקסט" ("Speech to Text") המופעלות במוצרים אחרים של גוגל, כמו מערכת ההפעלה אנדרואיד לטלפונים ניידים. בטלפונים ניידים הפיכת דיבור לטקסט משמשת להכתבה של הודעת טקסט (SMS) ולהפעלה קולית – כלומר דיבור אל הטלפון כדי לחייג לאדם מסוים או לרשום פגישה ביומן ("התקשר לג'יין" או "פגישה עם ג'ון ביום שלישי הבא בתשע בבוקר").
עד כמה אפשר לדייק?
כמו שראינו בדוגמה מהעימות הטלוויזיוני באנגליה, מופיעות בתמלול טעויות רבות. לעתים הטעויות קלות ואינן פוגעות בהבנת המשמעות, כמו השמטה של מילים שקל להשלימן מתוך ההקשר. במקרים אחרים הטעויות הופכות את הטקסט לחסר מובן, כמו במקרה של הטייסים במטוס הפסטה.
מדוע קל לצופה בסרטון ביוטיוב להבין את דברי קלג, בעוד התוכנה מתקשה כל כך? אפשר לטעון טענות רבות נגד פוליטיקאים, אבל בדרך כלל רמת ההגייה והמבטא שלהם גבוהה מהממוצע. ייתכן שהאלגוריתמים של גוגל פותחו תוך כדי שימוש בעיקר במבטאים אמריקניים והתקשו מול המבטא הבריטי של קלג, אך קל למצוא טעויות גם בכתוביות שהופקו בעבור דוברים אמריקנים. הסבר אחר ליתרונו של הצופה האנושי בסרט הוא התרומה של צפייה בתנועות השפתיים, גם אם רובנו איננו מודעים לכך. גם תוכנה אוטומטית יכולה להיעזר בתנועות שפתיים, וייתכן שחברות כמו גוגל ישלבו בעתיד קריאת שפתיים בתוכנות "דיבור לטקסט".
יתרון נוסף של הצופה האנושי הוא הבנת ההקשר. באנגלית, הביטויים "to all" ו-"two old" נשמעים דומים למדי. הצופה האנושי יודע שקו ההסברה של המפלגה הליברלית-דמוקרטית כולל את הטענה כי הגיע הזמן להציב אלטרנטיבה לשתי המפלגות הוותיקות, וגם מי שאינו מתמצא בממשל הבריטי יכול להבין זאת מדבריו של קלג בעימות. לכן, קל לאדם לפסול את הפרשנות של "to all parties" ולהעדיף את "two old parties". בעבור מחשב האתגר קשה הרבה יותר, מכיוון שהוא דורש רמה גבוהה של הבנת העולם: שיטות ממשל, המטרה של הדוברים בעימות, הרמז המובלע במילה "old" המבליט את הטענה שהגיע הזמן לממשל חדש, ועוד. המומחיות המרשימה של בני אדם במערכת כזו של יצירת הֶקשרים מסתירה מאיתנו את עצם הקושי הרב שבה, ובדרך כלל לא נהיה אפילו מודעים לכמות העצומה של פרשנויות שפסלנו בדרך להבנה נכונה של הטקסט.
ברמה נמוכה יותר של ניתוח טקסט, ייתכן שגם מחשב היה עשוי למצוא כי התמלול במילים "to all" אינו דקדוקי, אך דיבור אנושי אינו פורמלי ולכן ניסיון לאכוף עליו כללי דקדוק עשוי להוביל לטעויות משונות עוד יותר. לעומת זאת, נראה כי האלגוריתמים של גוגל שואפים לפענח הֶקשר ברמה הנמוכה עוד יותר: רמת צירופי המילים. רמז לכך אפשר למצוא בתמלול של "playing pass" ל-"plane pilots" – בשני הצירופים המילה הראשונה מבוטאת בצורה דומה. סביר שהמילה "pilots" נבחרה כי היא באה לעתים קרובות בצמוד למילה "plane", אפילו אם בפענוח ברמת המילה הבודדת היה סביר יותר כי נאמרה מילה אחרת.
שכיחויות של מילים בודדות ושל צירופי מילים מחושבות מתוך סטטיסטיקה על מאגרים גדולים של טקסט, וכמובן רק למעט חברות בעולם יש גישה למאגרים גדולים כמו אלה של גוגל. לעתים גם סטטיסטיקה כזו עשויה להיות מקור לטעויות: "החבילה עוברת" מופיע 600,000 פעמים בחיפוש בגוגל, פחות מ"טייסי מטוס" המופיע יותר מעשרים מיליון פעם ואפילו "טייסים פסטה" (מיליון מופעים וחצי; החיפוש נעשה כמובן באנגלית, וללא מרכאות בכל המקרים, כך שבעבור "טייסים פסטה" נמצאו דפים שבהם מופיעות שתי המילים, לאו דווקא בסדר זה או בסמיכות). סטטיסטיקה המבוססת על סדר מדויק של המילים הייתה נותנת תוצאות שונות, אך ספק אם סטטיסטיקה כזו מתאימה לאופי הלא-מסודר של דיבור.

"שם יהיה ללא ספק להיות אלו אשר הדו"חות שלי גינוי הם לא מספיק" (צילום: א.ס.א.פ קריאייטיב |Mistydawnphoto, Shutterstock )
עד כמה חשוב הדיוק?
כאמור, יש סיבות רבות לכך שהעברה אוטומטית מדיבור לטקסט אינה מושלמת. בכל מקרה קשה לדרוש כי היא תשיג דיוק גבוה יותר מרמת הדיוק של מתמללים מקצועיים. כאן יש לשאול האם הדיוק אכן חשוב כל כך? במקרים מסוימים התשובה היא חיובית: לא נרצה לחתום על הסכם משפטי שהטקסט שלו נוצר על-ידי תמלול אוטומטי וללא הגהה, כפי שלא נעז לעלות על מטוס שמסמכי התכנון שלו הופקו בתהליך דומה. במקרים אחרים, נפוצים מאוד, אנו סומכים על עצמנו שנזהה חלקים חשודים בתמלול ובמקרים רבים נפענח בעצמנו את הכוונה המקורית – אחרת לא היה מקום למקצוע התמלול. התמלול אינו רק חוסך את הזמן הנדרש להאזנה לדברים המוקלטים ומחליף אותו בזמן הקצר בהרבה הנדרש לקריאה, אלא גם מאפשר שימוש בכלים נוספים כמו חיפוש ועריכה.
במצבים רבים התמלול אינו רק נוח אלא חיוני. הוא פותח לפני כבדי שמיעה עולם של תקשורת שהיה סגור בפניהם, הוא מאפשר למי שעדיין אינו מיומן בשפה המדוברת להשלים את הבנת הדברים דרך טקסט כתוב, והוא מתאים לסביבות רועשות שבהן קשה לשמוע את הנאמר כמו גם לסביבות שבהן יש לשמור על שקט.
בעולם שבו אפשר להצמיד לכל הקלטה גם תמלול של הטקסט הנאמר בה נוכל להשתמש בכלי החיפוש שכבר התרגלנו אליהם כדי למצוא גם מילים שנאמרו – בנאום, בסרט, בדיון, בהרצאה או בכל סיטואציה מוקלטת אחרת. גם כאשר אמינות התמלול היא חלקית בלבד, ההשלכות על יעילות התקשורת ועל שיפור עזרי הזיכרון והאיחזור יהיו מהפכניות, וכך גם ההשלכות על הפרטיות כאשר ארגונים ממשלתיים, חברות מסחריות ואנשים פרטיים יאספו מאגרים גדולים של תמלולי שיחות.
תמלול + תרגום = דג בבל
כפתור cc באתר יוטיוב כולל אפשרות נוספת: תרגום, הזמין לאחר שהופעל התמלול האוטומטי. כאשר השפה המקורית היא אנגלית (אחרת, כאמור, עדיין לא קיימת אפשרות התמלול), אפשר לבחור תרגום אוטומטי של התמלול לשפה כלשהי מתוך רשימה ארוכה, הכוללת גם עברית ויידיש. זוהי דוגמה טובה לאפשרויות הנפתחות ברגע שהמילים הופכות מדבוּרות לכתובות: שירות התרגום האוטומטי של גוגל, שכבר מוכּר לגולשים רבים, יכול להיכנס לפעולה כאשר נוצרות בעבורו הכתוביות.
איכות התוצאות תלויה עתה גם בדיוק התמלול וגם בדיוק התרגום. בעבור העימות הטלוויזיוני שבו פתחנו, הכתוביות בעברית קשות מאוד לפענוח, בין השאר מכיוון שנושאי הדיון הם ספציפיים לפוליטיקה ולכלכלה הבריטיות. לעומת זאת, את הנאום של ברק אובמה כאשר היה מועמד לנשיאות ארצות הברית (חפשו ביוטיוב את המילים "speech obama perfect union"), העוסק בנושאים כלליים של שוויון וגזע, אפשר להבין ברובו למרות "פספוסים" רבים, חלקם משעשעים למדי. חלק מהטעויות נובעות משלב התמלול: "משה ופרעה" הופך ל"משה שכר" (באנגלית "פרעה" נשמע כמו "payroll"); וחלק נובעות משלב התרגום: "אין ספק שיהיו כאלה בעבורם הצהרות הגינוי שלי אינן מספקות" הופך ל"שם יהיה ללא ספק להיות אלו אשר הדו"חות שלי גינוי הם לא מספיק". (התמלול באנגלית הוא תמלול נכון לדבריו של אובמה "there will no doubt be those for whom my statements of condemnation are not enough").
הצעד הבא הוא להוסיף עוד חוליה לשרשרת המתחילה בהפיכת דיבור לטקסט באותה שפה וממשיכה בתרגום הטקסט לשפה אחרת. אם נוסיף לשרשרת גם קריאה בקול של הטקסט המתורגם בשפה החדשה, נקבל הגשמה בעולם האמיתי של "דג בבל", יציר דמיונו של הסופר הבריטי דגלאס אדמס בספרו "מדריך הטרמפיסט לגלקסיה". כאשר גיבור הספר מכניס דג בבל לאוזנו, הדג מתרגם כל מה שנאמר לשפה המובנת לגיבור.
לאחרונה הציגו חוקרים במעבדות מיקרוסופט בבייג'ינג פיתוח של "טלפון מתרגם". בסרטון הדגמה של שיחת וידאו בין דובר אנגלית לדובר גרמנית, ניתן לראות שהדיבור בגרמנית מתומלל לטקסט בגרמנית, מועבר לתוכנת תרגום אוטומטי כדי לייצר טקסט באנגלית, ואז מועבר לתוכנת קריאה בקול ("טקסט לדיבור" – Speech to Text). התוצאה היא השמעת תרגום של מה שאמר דובר הגרמנית בעיכוב של כמה שניות בלבד.
תרגום של דיבור נדרש להתמודד עם כמה קשיים שאינם קיימים בתרגום טקסט. הקושי הראשון הוא כמובן חוסר הדיוק בתמלול. נוסף על כך, לשפה דבוּרה יש גם תבניות שונות מאלה של השפה הכתובה – חזרות, המהומים, השמטת מילים, מבני משפט לא דקדוקיים ועוד. לכן מפתחי ה"טלפון המתרגם" מצאו שנדרש צעד ביניים בין התמלול לתרגום: מכיוון שתוכנת התרגום של מיקרוסופט (Bing Translator) פותחה בעבור תרגום שפה כתובה, פותח גם כלי ההופך את התמלול למבנה המתאים יותר למבנה של שפה כתובה.
בכל אחד מהשלבים בתהליך עשויות להופיע טעויות הנגררות גם אל השלבים הבאים, והמערכת בכללותה רחוקה מביצועים מושלמים. בכל זאת, מפתחי הטלפון המתרגם מאמינים כי כבר עכשיו הביצועים טובים דיים כדי לאפשר לשני אנשים שאינם מבינים זה את שפתו של זה לתקשר ביניהם, כל עוד הם מוכנים להקפיד על דיבור ברור ולחזור על עצמם מפעם לפעם.
סיכומי ישיבות
אחד היתרונות של תרגום שפה דבוּרה במספר שלבים, הכוללים מעבר דרך שפה כתובה, הוא היצירה של טקסט המתעד את השיחה. בפרויקט הטלפון המתרגם כל דובר יושב מול מסך שעליו מוצג שידור וידאו של הדובר השני ולצידו תמלול השיחה עד עתה, בשפה המקורית ובתרגום. בעתיד יוכלו הצדדים לחזור לתמלול, להיזכר במה שנאמר ולהשתמש בכלי חיפוש טקסט מוכרים כדי למצוא בקלות נקודות חשובות בשיחה.
אותו רעיון מופעל בפרויקט CATCHUP של חוקרים מאוניברסיטת שפילד באנגליה. התוכנה פותחה בעבור מצב נפוץ שבו אנשים מצטרפים לישיבה לאחר שהחלה (או מאבדים קשב במהלכה)ומנסים להבין מה נאמר עד כה כדי להשתתף בפגישה השתתפות יעילה. הנחת הפרויקט היא כי בעבור המאחר לישיבה עדיף איחור קצר נוסף שיוקדש להבנת הנושאים שנידונו עד כה, במקום להצטרף מיד לישיבה ולנסות להסיק תוך כדי הדיון מה החומר שהחסיר.
גם כאן נעשה שימוש בתמלול אוטומטי, אבל בניגוד לטלפון המתרגם אי אפשר להסתמך על התמלול בפני עצמו. סיבה אחת לכך היא כי תמלול של כמה דוברים עדיין פחות מדויק מתמלול של שיחה בין שניים (איכות ההקלטה נמוכה יותר בדרך כלל, וסיכוי רב יותר שכמה אנשים ידברו יחדיו). יתרה מכך, בשיחת הטלפון המאזין יכול לבקש מהדובר לחזור על דבריו או לנסחם מחדש, מה שאי אפשר לעשות תוך כדי קריאת תמלול של דברים שכבר נאמרו.

שמיעת התקציר האוטומטי אפשר לקבוצה שאיחרה להבין את תמצית הפגישה. (אילוסטרציה: א.ס.א.פ קריאייטיב |Stocklite, Shutterstock )
כדי להתגבר על כך, העדיפו המפתחים להשמיע למאחֵר את הקלטת השיחה, אך לערוך ולקצר את ההקלטה כך שיופיעו בה החלקים המשמעותיים. לשם כך הם מעבירים את התמלול דרך תוכנת תמצות, סוג נוסף של טכניקת עיבוד טקסט בבינה מלאכותית. במקרה זה, כדי להשיג מהירות ניתוח גבוהה וחסינות יחסית לשגיאות תמלול, תהליך התמצות הוא פשוט ומבוסס על זיהוי מונחים המופיעים בשכיחות גבוהה בדברים שנאמרו בישיבה (ליתר דיוק, היחס בין שכיחות המונח בישיבה לבין שכיחות המונח בתמלולים של ישיבות דומות – ההנחה כאן היא כי מונח המופיע לעתים קרובות בכל הישיבות אינו מייחד מידע חדש לישיבה זו).
לאחר שזוהו החלקים בתמלול שיש לשמר גם בתמצות הישיבה, התוכנה משמיעה את ההקלטה אך ורק בחלקים אלה. כך משמש התמלול אך ורק לזיהוי הזמנים שבהם נידון המידע החשוב יותר, כאשר המאחר אינו רואה כלל את התמלול אלא מאזין לתקציר הפגישה שנוצר לפי ניתוח התמלול. אמנם הסיבה העיקרית לכך היא חוסר הדיוק של תמלול ישיבות, אך החוקרים מצביעים גם על יתרון: האזנה להקלטה מאפשרת להבין לא רק את מה שנאמר אלא גם את התוכן הרגשי הקיים בדיבור, שברובו נעלם בתמלול.
מחקרים והתפתחויות אלו מראים כי גם כיום, כאשר כלי התמלול, התרגום והתמצות רחוקים מלהיות מושלמים, הם מובילים למהפכה בדרך שבה אנו צורכים שפה. יש כאן בשורות טובות עבור כבדי שמיעה, בעבור מי שזקוק לגישה נוחה למידע בכל צורותיו, כולל שפה (למשל, עיתונאי המתעניין בדעות שהביעו פוליטיקאים בנושאים שעל סדר היום), בעבור מי שנדרש לתקשר בשפות שאינן מובנות ועוד. אפשר גם לראות את ההשפעה השלילית, באיבוד הפרטיות הנובע מהנגישות הרחבה לטכנולוגית תמלול כמו גם בתרבות שבה הצורך להאזין לדבריו של האחר קטן אף יותר מאשר הוא כיום ("אם זה חשוב נוכל להסתכל בתמלול אחר כך"). כך או כך, המהפכה כבר החלה.
ישראל בנימיני עובד בחברת ClickSoftware בפיתוח שיטות אופטימיזציה מתקדמות.
הכתבה המלאה התפרסמה במגזין
גליליאו, יולי 2010
לקבלת גליון של גליליאו במתנה לחץ כאן
להזמנת מנוי
גולשים שקראו כתבה זו התעניינו גם ב: