באתר שיתוף הווידאו YouTube נצפים יותר ממיליארד קטעי וידאו בכל יום - יותר מרבבה בכל שנייה. בין השאר יש בו מאות סרטים שבהם חתולים מנגנים בפסנתר, מפריעים לאחרים לנגן בפסנתר, "מגיבים" על סרטים שבהם מופיעים חתולים ופסנתרים אחרים, או סתם נעים לצלילי מוזיקה... נראה כאילו תעשייה שלמה צמחה סביב סרטי חתולים בכלל וסרטי חתולים מנגנים בפרט, ולסרטים אלה יש קהל רב: הסרט על נורה, החתולה המנגנת, למשל,נצפה קרוב לעשרים מיליון פעם. אם כן, עשרות מיליוני גולשים מעלים סרטים וצופים בסרטים באתר זה בלבד, וכמובן קיימים אתרים רבים נוספים המוקדשים לתכני וידאו.
איך מגיעים הגולשים לסרטים כאלה? אחת הדרכים היא חיפוש סרט על-ידי הקלדת שאילתה למנוע חיפוש, ואכן מנוע החיפוש של YouTube שני רק ל-Google במספר שאילתות החיפוש המגיעות אליו (קרוב לארבעה מיליארד שאילתות באוקטובר 2009). מנוע החיפוש פועל בצורה שונה מאוד מהצורה שבה אדם נזכר בקטעי וידאו שראה.
האדם יזכור מה קרה בסרט; איזה אנשים, חיות וחפצים הופיעו; מה היתה האווירה (למשל: הומוריסטית, דרמטית); ופרטים רבים נוספים. מנוע החיפוש אינו מתייחס כלל לתוכן הווידאו אלא רק לטקסט המוצמד לווידאו, כמו שם הסרט והתיאור שסיפק האדם שהעלה את הסרט לאתר. לפיכך ייתקל מחפש החתולים (כאמור, מתברר שיש רבים כאלה) לעתים בתוצאות לא רלוונטיות בעבורו, כמו כאלה הקשורות למוזיקאי קט (Cat) סטיבנס, וייתכן כי סרטים רלוונטיים לא יופיעו כלל בתוצאות החיפוש.
זוהי תוצאה של מגבלה ידועה: אף שאין תחליף ליכולתן של רשתות המחשבים העולמיות לאכסן ולשתף תוכן ויזואלי, תוכן זה הוא אטוּם מבחינת המחשב, היכול לאכסן ולשדר אותו אך לא "להבין" אותו. "הבנה", בהקשר זה, היא דרישה צנועה יחסית – יצירת תיאור מילולי המזהה את העצמים המופיעים בסרטון הווידאו גופו, או מציאת תוכן ויזואלי המתאים לתיאור מילולי נתון.
מצב זה עומד להשתנות. מאמצים רבים מושקעים בהבנת וידאו ותמונות והם כבר מניבים תוצאות מבטיחות. ההתקדמויות הבאות מבטיחות שינוי גדול, ולא רק בשיפור חוויית המשתמש המחפש סרטים מצחיקים על חתולים: כפי שנראה בהמשך, פיענוח וידאו יוביל למהפכה העשויה להיות גדולה ומשמעותית יותר מהמהפכה שנוצרה על-ידי היכולת לחפש טקסט באינטרנט.
תחרויות ראייה ממוחשבת
לרשות קהילת החוקרים הגדולה העוסקת בניתוח מידע ויזואלי עומדים ערוצים רבים של מפגשים ושיתוף פעולה, וביניהם גם כמה תחרויות. נזכיר שתיים מהן: אחד האתגרים בתחרות Pascal VOC (קישור בטור צד) דורש מהתוכנות המתחרות לענות על שאלות כמו "האם יש סוס בתמונה?" ואם התשובה היא חיובית, לאתר את העצם שזוהה – בדוגמה זו, נדרש לצייר בתמונה מלבן המכיל את הסוס.
בין הקטגוריות הרבות של עצמים שעל התוכנות לזהות מופיעים גם "בקבוק", "אופנוע", "פרה", "שולחן אוכל", "ספה", "עציץ" ו"טלוויזיה". בתחרות TRECVID (קישור בסוף הטור), שאותה מנהל המכון הלאומי האמריקני לסטנדרטים ולטכנולוגיה (NIST), קיים אתגר דומה של זיהוי עצמים ובו קטגוריות העצמים כוללות בין השאר "צומת דרכים", "אדם מנגן", "שחקן כדורגל", ו"חדר כיתה".
אתגר נוסף הוא חיפוש, בתוך מאות שעות וידאו שנקלטו במצלמות אבטחה, קטעים המתאימים להגדרות כמו "אדם רץ", "אנשים מתחבקים", ו"אדם עומד ליד מעלית שדלתותיה נפתחות אך אינו נכנס". כמו כן כוללת התחרות אתגר חיפוש בתוך קטעי וידאו של נושאים כמו "משהו בוער", "יד מציירת או כותבת", "כביש הנראה מתוך השמשה הקדמית של רכב נוסע", ואתגר זיהוי העתקה: מציאת קטעי וידאו שסביר כי הועתקו ממקור אחר.

דוגמה לסימון תמונה בתחרות Pascal VOC.
צילום: Maria-Elena Nilsback, University of Oxford

צילום: Juan Huo, University of Edinburgh
תחרויות אלה ודומות להן מתקיימות מדי שנה בשנה כבר כמה שנים, וניכרת מגמה של שיפור בתוצאות באתגרים החוזרים כל שנה, כמו גם מגמה של הוספת אתגרים קשים יותר בכל שנה. התחרויות, ובייחוד פרסום מאמרים אקדמיים המתארים את השיטות והכלים שהפעילו המתחרים, תורמים רבות להתקדמויות בתחום.
למידה עצמאית
לצורך פיענוח קטעי הווידאו משתמשים המפתחים במאגר גדול של כלים, שרובם מגיעים מתחום הראייה הממוחשבת: מציאת קווי מתאר של חלקים בתמונה, חיבור קווי המתאר לעצמים, הפרדת העצמים מהרקע, ניתוח טקסטורות (צבעים ותבניות) של חלקים שונים בתמונה, זיהוי רמזים תלת-ממדיים (למשל, כאשר עצם אחד מסתיר חלק מעצם אחר), וטכניקות רבות נוספות. לטכניקות אלה נוספים גם כלים לניתוח הצלילים הכלולים בקטע הווידאו, בין השאר מתוך שאיפה לזהות מילים הנאמרות בו.
כבר לפני זמן רב התברר כי בתוכנות כאלה חייב להיות מרכיב מרכזי של למידה: לדוגמה, קשה למפתחי התוכנה להגדיר מתמטית כיצד נראה סוס, אך אפשר לתכנת את המחשב למצוא הגדרה כזו בעצמו בדרך של למידה: אם נזין למחשב מספיק תמונות של סוסים (וכמובן די תמונות שאינן כוללות סוס) וניצור תוכנת למידה מתאימה, אנו מצפים כי המחשב ילמד בעצמו מהו סוס. תוך כדי התהליך, התוכנה מבצעת בעבור כל תמונה מספר גדול של חישובים מספריים, וכך יוצרת אוסף של מספרים המאפיינים חלקים שונים בתמונה.
אפיונים מספריים אלה עשויים לכלול את המיקום והגודל היחסי של תת-חלקים בָּעצם שזוהה בתמונה, הטקסטורה של תת-החלקים, התנועה של העצם כולו והתנועה של חלקים מהעצם ביחס לחלקים אחרים. כאן נכנסת לפעולה תוכנת הלמידה ומחפשת מאפיינים המשותפים לרוב תמונות הסוסים ונעדרים מרוב התמונות שבהן לא מופיעים סוסים.
תיאור זה הוא פשטני מדי, כמובן, ומתעלם מבעיות רבות: בחירה נכונה של מאפיינים מספריים, התמודדות עם זוויות צפייה שונות באותו עצם (סוס נראה שונה אם מסתכלים עלים מלפנים או מהצד, למשל), גדלים שונים (סוס הממלא את כל התמונה או נמצא רק בחלק קטן שלה), עצמים מוסתרים או הנחתכים על-ידי גבולות התמונה (למשל תמונה שבה נראה רק ראשו של הסוס), הבדלים בתוך הקטגוריה (איך יבין המחשב שרוטוויילר וצ'יוואווה שייכים שניהם לקטגוריה "כלב"?), ועוד.
הצורך בלמידה אינו מפתיע: גם בני אדם לומדים לזהות את רוב העצמים מתוך דוגמאות רבות ולא מתוך אינסטינקט הטבוע בהם (ייתכן שיש לנו יכולת מולדת לזהות "עצמים דמויי נחשים", אך בוודאי אין לנו יכולת מולדת לזהות מכוניות). מארגני התחרויות מכירים בכך ומספקים אוסף גדול של תמונות וקטעי וידאו לדוגמה. בדרך כלל יוזנו חלק מהתמונות לתהליך הלמידה, בעוד חלק אחר ישמש לבדיקת ביצועי התוכנה לאחר הלמידה.
מקורות לקטעי וידאו "עם פרשנות"
תהליך הלמידה יוצר דרישה לאוספים גדולים של תמונות וסרטים שאליהם מוצמדות "פרשנויות": כפי שפעוט לומד לזהות מכונית מתוך אירועים רבים שבו מראים לו מכוניות ואומרים "הנה מכונית", כך תוכנת הלמידה זקוקה לתיוג של עצמים ופעולות בתמונות ובסרטים. קיימים כבר מאגרים כאלה המשמשים ללמידה ולתחרויות כמו אלה שהוזכרו, אך קהילת המחקר הגדולה והפעילה "רעבה" לעוד ועוד תמונות וסרטים מתויגים.
פרופ' בן טסקר (Taskar) מאוניברסיטת פנסילווניה החליט ללמד מחשבים לצפות בסדרות טלוויזיה פופולריות (ראו קישורים בסוף הכתבה לדיווח ולמאמר טכני) כדי להשביע את הרעב של תוכנות הלמידה. אחד המקורות שבו השתמש כלל כמאה אפיזודות של סדרות הטלוויזיה "אבודים" ו"CSI".
לסדרות אלה יש אוהדים רבים, וחלקם משקיעים זמן רב בהעלאה לרשת האינטרנט של תסריטים וכתוביות. עבודתם של אוהדים אלה מאפשרת לשייך לכל רגע בסרט את הדוברים שבו: לדוגמה, שילוב של טקסט מהתסריט של "אבודים" וכתוביות יכול לספק את המידע שבשנייה מסוימת שואלת קייט "אז מה עוצר אותך?" וג'ק עונה: "אנחנו לא פראים, קייט. עדיין לא." מכאן סביר להניח כי הפנים הנראות בשניות שלפני ואחרי הופעת הכיתוביות המתאימות כוללות את פניהם של ג'ון וקייט.
סדרה ארוכה של ניתוחים אלגוריתמיים, הכוללים בין השאר התמקדות על פנים וזיהוי רגעים שבהם השפתיים זזות, מובילה לדיוק גבוה בזיהוי הדוברים: כאשר נדרש המחשב לזהות רק את שמונה הדמויות השכיחות ביותר, הוא טועה רק ב-6% מהמקרים. כאשר הדרישה היא לזהות 32 דמויות, אחוז הטעות הוא 13%.

דוגמה לחלקים מסומנים ולקטעי תסריט מתוך הסדרה "אבודים". Courtesy Timothee Cour, Ben Sapp,Chris Jordan, Ben Taskar.

הטקסט המופיע בתסריט מניב יותר מאשר שמות הדוברים בלבד. דרך ניתוח תחבירי אפשר לזהות פעולות ולקשר אותן עם קטעים בווידאו. לדוגמה, כאשר כתוב בתסריט "סעיד מחזיק בידו בקבוק ריק וחוקר אותה", השוואה לטקסט קודם מראה כי הכוונה במילה "אותה" היא לדמות בשם סאן. לכן התוכנה תחפש שתי פעולות: "סעיד מחזיק בקבוק" ו"סעיד חוקר את סאן".

כפי שאפשר לראות בהדגמות (קישור בטור צד), תהליך זה מאפשר ליצור אוספים של כל הקטעים שבהם מופיעות פעולות כמו "שחייה" או "מעקב". בצורה זו אפשר גם ליצור כלי חיפוש היכולים לענות על שאילתות כמו "מצא סצנות שבהן קייט מדברת עם ג'ק" או "מצא סצנות שבהן מישהו עוקב אחרי קלייר".

בסופו של דבר, יש לקוות כי מאגרים כאלה יוכלו לעזור לתוכנת למידה ללמוד מהי פעולה כמו "עוקב אחרי" גם ללא עזרת טקסט המתייג ומפרש כל סצנה. זוהי דוגמה נוספת לרתימת הכמות האדירה של מידע המועלה לרשת על-ידי גולשים ברחבי העולם לצורכי תמיכה במחקר והתקדמויות טכנולוגיות.
ומה הלאה?
דמיינו עתיד שבו כל קטע וידאו ברשת האינטרנט נצפה ומנותח על-ידי מנועי חיפוש מהדור החדש: מנועי חיפוש וידאו, בשילוב עם המאגר הענק של וידאו הזמין באתרים כמו YouTube, ועםמצלמות הווידאו המכסות כבר כיום חלקים גדולים מהמרחב הציבורי. חיפושים כאלה יוכלו לשמש מדענים המציבים מצלמות ביערות כדי לתור אחר מינים נדירים, אך באותה צורה גם יוכל ציבור המעריצים לקבל הודעה בכל פעם שסלבריטאי נקלט בעדשת המצלמה.
הורים מודאגים יוכלו לבדוק אם ילדם שנעלם נקלט במצלמת אבטחה, והמשטרה תוכל לקבל אתרעה אוטומטית בכל פעם שמצלמה "רואה" פעילות אלימה כלשהי. אנתרופולוגים וסוציולוגים יקבלו לידיהם כלי מחקר כמותיים ואיכותיים חדשניים (למשל, השוואות תרבותיות של מרחקים בין דוברים או תגובה למאורע לא שגרתי), וצוותים רפואיים יוזעקו מיד למקום שבו נפל אדם או שהתרחשה שם תאונה.
מצד שני, משטרים טוטליטריים יוכלו לזהות הפגנות ספונטניות או פעילויות אחרות החשודות כחתירה תחת המשטר, ולהדריך את התוכנה לעקוב אחר המשתתפים ולהרחיב את מעגל החשודים על-ידי הוספת אלה הפוגשים את המשתתפים בפעולות החשודות. רשימה זו היא רק טעימה קטנה ממה שעשוי להתרחש בעתיד.
בהתבסס על הפגיעה בפרטיות שכבר הפכה לתוצאה בלתי נמנעת של מנועי החיפוש הקיימים, ועל קצב ההתקדמות ביכולת ניתוח הווידאו, נראה שהעתיד הזה כבר קרוב, על צדדיו המבטיחים וצדדיו המאיימים. נתנחם לפחות בכך שמציאת סרט מצחיק על חתולים תהיה אפילו קלה יותר מאשר כעת...
ישראל בנימיני עובד בחברת ClickSoftware בפיתוח שיטות אופטימיזציה מתקדמות.
הכתבה המלאה התפרסמה במגזין
גליליאו, מרץ 2010
גולשים שקראו כתבה זו התעניינו גם ב: