Custom Search
סקר ifeel

איך אתם מעבירים לילדיכם את חשיבות הפעילות הגופנית?






הצבע

אילוסטרציה: stock.xcg

פעמיים ג'ורדן בבקשה

חיפוש אדם מסוים במנוע חיפוש אינטרנטי מוצא לפעמים מספר אנשים בעלי אותו שם. צוות חוקרים פיתח אלגוריתם המזהה קבוצות של נתונים ומוצא את השם הנכון

ישראל בנימיני
26/06/2007




בעת כתיבת כתבה זו, חיפוש בגוגל של "מייקל ג'ורדן" (באנגלית) העלה מידע רב מאוד על שחקן הכדורסל הידוע, ורק מעט על חוקר הבינה המלאכותית האמריקני פרופ' מייקל ג'ורדן. אם נרצה למצוא יותר מידע דווקא על הפרופסור, עלינו להרחיב את הגדרת החיפוש: החיפוש "מייקל ג'ורדן ברקלי" אכן יצליח, אך לשם כך עלינו לדעת כי הוא מלמד באוניברסיטת ברקלי בקליפורניה. לעומת זאת, אם ננסה "מייקל ג'ורדן מתמטיקה", נקבל בתוצאה הראשונה את העובדה כי שחקן הכדורסל הידוע בחר ללמוד מתמטיקה בקולג', אך שינה את דעתו באמצע השנה הראשונה.

במצבים רבים קיימת האפשרות להיתקל בשני אנשים שונים בעלי אותו שם פרטי ואותו שם משפחה. כמו כן, קורה כי שמו של אותו אדם יופיע בצורות שונות. כך, למשל, בפסוקים הראשונים של שמואל א' י"ד מופיע שם בנו של שאול כמה פעמים כ"יונתן" וכמה פעמים כ"יהונתן". גם בטקסטים חדשים יותר השונוּת תהיה בעיקר בשם הפרטי ("מייק" או "מייקל"), אך ייתכנו עוד אפשרויות: "ויליאם גייטס", "ביל גייטס", "ו. גייטס" ו"ויליאם הנרי גייטס השלישי" הם כולם צורות של שמו של מי שהיה מנכ"ל מיקרוסופט. נוסף על כך, ויליאם גייטס הוא גם שמם של אנשים נוספים, וביניהם אחד משחקני הכדורסל השחורים הראשונים שהתחרו ב-NBL (הגוף שממנו התפתח ה-NBA), בנקאי בריטי, ומחפש זהב אמריקני בימי "הבהלה לזהב" באלסקה. עד כמה חשוב לדעת למי אנו מתכוונים כאשר מזכירים שם מסוים? תלוי בשימוש הנעשה בשמות: בתביעה משפטית החשיבות היא גדולה, בעוד שקשה להניח כי מייקל ג'ורדן - אם הכדורסלן ואם המתמטיקאי - מוטרד מהכפילות בשמות.

רשתות של מאמרים

בעיית הזיהוי החד-ערכי של האדם ששם מסוים מתייחס אליו בעלת שימושים מעשיים וגם מעניינת מבחינת הקשר שלה לפסיכולוגיה הקוגניטיבית. קשר זה פותח את האפשרות לקבל השראה מהידוע לנו על המוח האנושי כדי ליצור פתרונות יעילים בתחום הבינה המלאכותית, וגם את ההזדמנות לבחון מודלים אפשריים לפתרון בעיה זו כדי להבין טוב יותר תהליכים בבינה הטבעית. בעיות בעלות תכונות כאלו הן בעיות מעניינות עבור מחקרי בינה מלאכותית, ואין זה מפתיע כי גם בעיה זו זכתה לתשומת לב רבה. בספרות הבינה המלאכותית הבעיה ידועה בשם "name disambiguation" (או לפעמים "entity disambiguation") - כלומר הסרת הדו-משמעות משמות. שם הבעיה מסורבל למדי, אולי בדיוק מפני ששמות פשוטים יותר עשויים להיות משותפים לכמה בעיות.

הדבר הראשון הנדרש כדי לבדוק פתרונות כאלו הוא "שדה משחק" מספיק גדול ומעניין שבו עשויים להופיע שמות. ספר הטלפונים לא יתאים, כי השמות שבו אינם מופיעים עם מספיק מידע הנחוץ לזיהוי ההקשר. לעומת זאת, כל חוקר מכיר את ההקשר החשוב ביותר שבו מופיעים שמות עמיתיו: פרסומי מאמרים. כל מאמר כולל את שמות המחברים וכן ביבליוגרפיה - שמות של מחברי מאמרים המצוטטים באותו מאמר. כיום קיימים מאגרים גדולים של מאמרים הנגישים לכל אדם.

המאגר הגדול ביותר של מאמרים בתחומי מדעי המחשב הוא citeseer. במאגר זה בחרו חוקרים מאוניברסיטת פנסילבניה, בראשות פרופ' לי גיילס (Giles), כדי להציג את הפתרון שלהם לאתגר זיהוי השמות בכנס שנערך לאחרונה בברלין.



  זה איננו פרופ' מייקל ג'ורדן
זה איננו פרופ' מייקל ג'ורדן

מציאת מקבצים

גיילס, יחד עם הדוקטורנטים ג'יאן הואנג (Huang) וסיידה ארטקין (Ertekin) בחרו מדגם של 3,355 מאמרים מתוך citeseer, שכתבו 490 מחברים שונים. בכל מאמר הם התייחסו למילות המפתח (שמות של נושאים שבהם עוסק המאמר, הנבחרים על-ידי המחברים ומסייעים באחזוּר ובקטלוּג); לשמות המחברים-העמיתים; למאמרים המצטטים מאמר זה או המצוטטים בו; ולגופים האקדמיים שאליהם משתייכים המחברים.

האלגוריתם שפיתח הצוות של גיילס שייך לתחום הנקרא "למידת מכונה". במקרה זה הלמידה מתבטאת במטלה של זיהוי "מקבצים": קבוצות של נתונים הנוטים להופיע יחד. נניח, למשל, כי השם "J. Smith" מופיע בדרך-כלל באחד משני הקשרים: בהקשר אחד הוא יופיע בסבירות גבוהה עם אוניברסיטת ברקלי בקליפורניה ועם מאמרים בנושאי מסדי נתונים, ובהקשר האחר הוא יופיע עם נושאים של רובוטיקה ועם המחבר-העמית "K. Chen" (אך מבלי שנוכל למצוא שיוך עקבי לגוף מחקר מסוים); במקרה זה תהיה לנו הצדקה להניח כי מדובר בשני אנשים שונים. כפי שמלמדת הדוגמה ייתכן שנטעה בסיווג: אולי יש רק ד"ר סמית אחד שעסק בתקופות שונות בקריירה שלו בנושאים שונים, ואולי יש שלושה ד"ר סמית (מה שיסביר את העובדה שלא מצאנו שיוך אקדמי עקבי ב"מקבץ" השני). עם זאת, גם מנתח שמות אנושי יוכל לטעות באותה צורה: אנו מצפים מהתוכנה שתגיע לדיוק "גבוה ככל האפשר, אך לא מעבר לכך".

ריקוד המקבצים

כיצד ניתן למצוא מקבצים בתוך אוסף כזה של מידע? מציאת מקבצים (Clustering) היא בעיה ותיקה וידועה בבינה המלאכותית. אחת הגישות הטיפוסיות מתחילה במקבצים הקטנים ביותר האפשריים: כל "מקבץ" כולל רק פריט מידע אחד. במקרה זה, אם למאמר יש שלושה מחברים, תייצר התוכנה שלושה מקבצים שבכל אחד מהם פריט אחד בלבד. הפריט יכלול את שם המחבר, את מילות המפתח שלפיהן סווג המאמר, את ההשתייכות האקדמית של המחבר, ואת המאמרים המצטטים מאמר זה או מצוטטים בו (השיטה ניתנת להרחבה על-ידי הוספת מידע נוסף לכל פריט).

התהליך פועל בשלבים: בכל שלב מחושבים "מרחקים" בין מקבצים שונים. לדוגמה, אם נמצא שני מקבצים שמשותפים להם אותו שם מחבר, אותה השתייכות אקדמית וכמה מילות-מפתח משותפות, המרחק המחושב יהיה נמוך. לעומת זאת, אם יש רק דמיון מסוים בהשתייכות האקדמית ורק מילת-מפתח משותפת אחת, המרחק יהיה גדול יותר. נקודות שיימצאו קרובות זו לזו יאוחדו למקבץ אחד.

בשלב הבא יחושבו מרחקים בין מקבצים שבכל אחד מהם כמה פריטי מידע שאוחדו לאותו מקבץ: בשפה מתמטית המרחק יחושב בין "מרכזי המקבצים", כאילו פריטי המידע הם נקודות גיאומטריות במרחב רב-ממדי. שוב - מקבצים שיימצאו קרובים מספיק יאוחדו. בתהליך כזה ייתכן גם שנמצא כי מקבץ מסוים הפך ל"לא-הגיוני" וניאלץ לפרק אותו ולשלב את הפריטים המופיעים בו למקבצים שכנים.

במחקר של גיילס ועמיתיו אחד האתגרים המרכזיים היה מציאת הנוסחה לחישוב המרחק בין שני פריטים. נוסחה זו קובעת אם כדאי לייחס משקל רב יותר למילות המפתח, להשתייכות הארגונית, או לכותבים-העמיתים בקביעת המרחק. קשה לנחש מראש מהי הנוסחה שתביא לתוצאות הטובות ביותר.

דיוק ומהירות

אם נניח כי בממוצע היו כשלושה מחברים לכל מאמר מתוך 3,355 המאמרים שנכללו במדגם, עלינו לסווג כעשרת אלפים שמות. כיוון שהחוקרים סיווגו ידנית כל מאמר במדגם (כדי להשוות לתוצאות של השיטה האוטומטית), הם ידעו כי בסך הכל היו פחות מ-500 מחברים. מכאן שכל מחבר השתתף בכתיבה של כעשרים מאמרים בממוצע, והתהליך צריך להסתיים עם מקבצים בגודל של כעשרים פריטים בממוצע. מובן שיש להניח כי חלק מהכותבים היו "פוריים" מאוד, בעוד שאחרים יופיעו רק במאמר בודד, כך שאי-אפשר לצפות מראש את גודלו של מקבץ ספציפי כלשהו.

התוכנה של גיילס ועמיתיו שייכה את המחבר למקבץ הנכון ב-91% מהמקרים. (החוקרים קבעו זאת באמצעות השוואה לסיווג הידני שביצעו, תוך שימוש במידע נוסף שלא היה זמין לתוכנה; במקרים מסוימים החוקרים אף פנו אל המחברים עצמם כדי לוודא את זהותם).

לי גיילס היה אחד משלושת היוצרים של citeseer, ולכן הוא מכיר מקרוב את הצרכים של משתמשי מאגרי מידע אקדמי. גם המפעילים הנוכחים של citeseer מכירים בצורך של זיהוי חד-משמעי של שמות חוקרים, והם מתכננים לכלול בגרסה הבאה של המאגר שימוש בשיטה שהוצגה במאמר זה.

להסרת הרב-משמעותיות של שמות יש שימושים רבים גם מעבר למאגרי מאמרים. בעשור האחרון יש שימוש רב בניתוחי מאגרי מידע כדי להפיק ממצאים עבור שיווק, מידע מודיעיני, מחקר אקדמי ועוד. יישומים אלה זכו לשם "כריית מידע" (Data Mining), המדגיש הן את ה"זהב" שאולי נמצא בתוך הררי המידע והן את המאמץ הנדרש כדי למצוא ולזקק את הזהב. זוהי כנראה הסיבה שחברת מיקרוסופט, שייסד ביל גייטס, תרמה חלק מהמימון לעבודתם של גיילס, הואנג וארטקין. ביל גייטס אחר, שחיפש זהב באלסקה בסוף המאה ה-19, היה ודאי מבין מדוע.

קישורים

citeseer - מאגר מאמרים אקדמיים במדעי המחשב»

המאמר של גיילס, הואנג וארטקי»

 

מתוך: מגזין גליליאו

לעשיית מנוי, לקבלת גיליון מתנה



למועדפים שלח לחבר הדפס

תגובות