הירשמו לניוזלטרים של ifeel, וכל הכתבות הכי חמות בדרך אליכם
קיימות הרבה דרכים למצוא מוסיקה ברשת. אם המחפש יודע את שם היצירה, או האמן, או מילים מתוך השיר, בדרך כלל לא יקשה עליו למצוא אתר שבו אפשר להאזין לשיר או לרכוש אותו (שלא לדבר על הורדת המוסיקה בצורה פיראטית). גם אם כל מה שידוע הוא כמה מילים מתוך השיר, חיפוש מילים אלו עשוי לעתים קרובות לעזור בזיהוי השיר. בשני המקרים מדובר בחיפוש טקסטואלי בעזרת מנוע חיפוש רגיל או מנוע חיפוש המוקדש למוסיקה.
יכולת חיזוי ההעדפות ואיכות ההמלצות משתפרת ככל שמשתתפים בתהליך משתמשים רבים יותר
אבל גם אם המחפש זוכר רק את המנגינה, הטכנולוגיות של היום מציעות כמה אפשרויות. אתר Midomi, למשל, מזמין את המשתמש לשיר או להמהם את השיר שהוא מחפש לתוך המיקרופון המחובר למחשב, ומשווה את הצלילים למאגר של שירים שתרמו גולשים אחרים. טכנולוגייתTrackID , המותקנת בחלק מהטלפונים הניידים של חברת Sony Ericsson, מאפשרת לטלפון להקליט את המוסיקה המושמעת ברקע ולזהות אותה.
Midomi מציעה גם היא תוכנה שאפשר להתקין על טלפון נייד ולהפעילה בצורה דומה (ואולם אלה אינם השירותים היחידים; נזכיר לדוגמה את Shazam ID המתחרה ב-Midomi). בתנאים הנכונים (רעשי רקע מינימליים), תוכנות אלה מגיעות לדיוק גבוה מאוד, ויש להניח כי הן יכולות לנצח כמעט כל אדם בעולם בתחרות זיהוי שירים, בזכות מאגרי המוסיקה הענקיים (והגדלים בהתמדה) העומדים לרשות אתרי המוסיקה.
יכולתו של המחשב לזהות מוסיקה מתבססת על "טביעות אצבע של שמע": ניתוח מתמטי של המוסיקה המושמעת, כדי ליצור מאפיינים מספריים המתאימים לאותה מוסיקה גם אם ישתנה הקצב שלה, אם ישבשו אותה רעשים או שירה לא-מדויקת, אם כמה מכלי הנגינה יהיו חסרים וכו'. טביעות האצבע מחושבות בעבור קטעים שונים של היצירה - למשל, הבית והפזמון - כך שהזיהוי יהיה אפשרי בלי לדרוש השוואה של שיר שלם לקטלוג של שירים ידועים.
גם בני אדם, כמובן, יכולים לזהות מוסיקה מוכרת כאשר היא מבוצעת בקצבים או בעיבודים שונים. אף על פי שאיננו יודעים כיצד אנו עושים זאת, סביר שאיננו נעזרים בשיטות דומות לשיטות טביעת האצבע הדיגיטליות. נזכיר כי בעלי כישרון והכשרה מוסיקליים יכולים גם לזהות וריאציות על נושאים ידועים, בניגוד לתוכנות שהוזכרו כאן. קשה לומר אם זיהוי כזה הוא הרחבה של אותה יכולת זיהוי מוסיקה שכולנו ניחנו בה, או הפעלה של יכולות וכישורים אחרים.
יש ללמד את התוכנה כיצד להאזין למוסיקה ולסווגה [אילוסטרציה: photos to go]
איזו עוד מוסיקה תמצא חן בעיני?
אתגר אחר בחיפוש מוסיקה הוא הרצון של המאזין למצוא יצירות שעדיין אינן מוכרות לו ושיתאימו לטעמו. מוכֵר מומחה בחנות תקליטים שנתקל באתגר כזה ישאל ודאי את הקונה איזו מוסיקה הוא אוהב, ויציע לו להאזין לאמנים או למלחינים דומים. המוכֵר אולי יוכל גם להיעזר בנסיונו הרב כדי להציע מוסיקה מז'אנר שונה, שהקונה עדיין אינו מכיר, אם הוא מצא בעבר כי אנשים בעלי טעם דומה לטעם אותו קונה אהבו גם ז'אנר נוסף זה.
מתברר כי שיטת המלצה זו ניתנת להפעלה בעזרת מחשב: אם משתמשים רבים ידווחו על העדפותיהם המוסיקליות, תוכל תוכנה מתאימה למצוא תבניות העדפה משותפות. כאשר משתמש חדש יספר לתוכנה על חלק מהעדפותיו, תוכל התוכנה לזהות תבניות משותפות למשתמש זה ולמשתמשים אחרים, ומכאן לגלות הזדמנות להציג בפניו אמן שאינו מוכר לו. אם אותו משתמש ידווח לתוכנה כי המלצה זו מצאה חן בעיניו, התוכנה תחזק את נטייתה להמליץ כך גם במקרים דומים בעתיד. אם המשתמש לא אהב את היצירה שהומלצה, תתחשב התוכנה גם בכך. כך משתפרת יכולת חיזוי ההעדפות ואיכות ההמלצות ככל שמשתתפים בתהליך משתמשים רבים יותר.
שינוי אופי המוסיקה לאורך השיר מצריך חלוקת השיר לקטעים לפני שיהיה אפשר לסווג כל קטע בנפרד
שיטה זו, של המלצות לפי ההעדפות שכבר ידועות עבור כל משתמש והדירוגים שסיפקו המשתמשים, נקראת לפעמים "סינון שיתופי" (Collaborative Filtering). שיטה זו כבר נפוצה באינטרנט, לא רק בעבור תוכנה: אתרי מכירות רבים, כמו Amazon, מציגים ליד כל פריט בקטלוג שלהם פריטים נוספים שרכשו אלה שקנו גם פריט זה, ומציעים למשתמשים רשומים המלצות המתבססת על כלל רכישותיהם. Amazon החלה בכך בעבור ספרים, אך כיום היא מציעה המלצות בעבור סוגי פריטים רבים, כולל מוסיקה. קיימים שירותי המלצות רבים בעבור מוסיקה, וביניהם חנות iTunes של חברת Apple, פאנדורה (הזמינה רק בעבור משתמשים בארה"ב), iLike, Last.fm ועוד. אותה שיטה משמשת גם להמלצות על דפי אינטרנט, סרטים וסוגי תוכן נוספים.
בנוסף ליתרונות של סינון שיתופי בשביל המאזינים, דרך ההנאה של "גילוי אמן לא ידוע" (כלומר שאינו מוכר לאותו מאזין), יש כאן יתרון פוטנציאלי גם לאמנים מתחילים, שקשה להם להגיע לפרסום ולהכרה בציבור הרחב. אמנים כאלה הסתמכו בעבר על המלצות "מפה לאוזן" של מאזינים ושל מוכרים בחנויות תקליטים, כך שתוכנות כאלה עשויות לתת להם את ההזדמנות לחשיפה לקהל שיידע להעריך את יצירותיהם.
טקסטורה היא המרקם החזותי של קטע בתמונה [אילוסטרציה: photos to go]
איזו מוסיקה נשמעת כמו מה שאני אוהב?
ההשוואה של כלי הסינון השיתופי למוכֵר הידידותי ורחב-הידע בחנות התקליטים מטעה מבחינה מסוימת: בניגוד לאותו מוכר, כלי הסינון לעולם אינם מאזינים למוסיקה. די להם לדעת כי מי שאהב יצירה A ויצירה B לעתים קרובות ישמח להכיר את יצירה C, כאשר כל אחת מיצירות אלה מיוצגת בתוכנה כסמל בלבד (כמו "A"). התוכנה ודאי מאכסנת מידע נוסף בעבור כל סמל כזה - האמן המבצע, האלבום שבו הופיעה היצירה, שנת הביצוע וכו' - אך כל אלה הם פרטי מידע שסופקו לתוכנה בעבור היצירה, והיצירה נותרת כ"קופסה שחורה" - או יותר נכון, קופסה אטומה - שהתוכנה אינה מאזינה לה. לפיכך, יצירה של מלחין או מבצע חדש לעולם לא תומלץ למאזינים עד שמאזינים מסוימים ידווחו כי אהבו אותה, לאחר שמצאו את היצירה בדרך אחרת. המאזין האנושי, לעומת זאת, יכול להקשיב לשיר חדש, לסווג אותו לפי ז'אנר, קצב, התחושה שהוא משרה והאמנים שהוא מזכיר, ולהסיק מי עשוי להיות מעוניין לשמוע את אותו שיר.
שינוי אופי המוסיקה לאורך השיר מצריך חלוקת השיר לקטעים לפני שיהיה אפשר לסווג כל קטע בנפרד
כדי לחקות את המוכר האנושי, יש ללמד את התוכנה כיצד להאזין למוסיקה ולסווגה. על אחד הפיתוחים המעניינים בתחום זה דיווחו לאחרונה בכנס ICASSP International Conference on) Acoustics, Speech and Signal Processing) שהתקיים בטייוואן באפריל 2009. המפתח, לוק ברינגטון (Barrington), המסיים את לימודי הדוקטורט שלו באוניברסיטת סן דייגו בקליפורניה, הציג שיטה חדשה המאפשרת לזהות תכונות של יצירה מוסיקלית, כמו הז'אנר שלה ואפילו עד כמה היא רומנטית. באתר physorg.com
ניתן למצוא דיווח עיתונאי על פיתוח זה, וכאן תוכלו למצוא את המאמר הטכני שהוצג בכנס.
למעשה, לפני שאפשר לסווג את המוסיקה יש צורך לעמוד באתגר מקדים: אופייה של היצירה משתנה לאורך הזמן, והיא עשויה לעבור, למשל, בין קטעים קצביים ועמוסים בצלילים לקטעים של שירה אטית ללא ליווי. ברינגטון מפנה אצבע מאשימה ללהיט "רפסודיה בוהמית" של להקת קווין - הוא אמנם אוהב את השיר, אך המעברים בין שירה ללא ליווי, שירה בליווי פסנתר שקט, סולו גיטרות, אופרת רוק ועוד מקשים מאוד על יצירת תוכנה שתסווג אותו. בעיה זו קיימת למעשה, במידה קטנה יותר, בעבור כל שיר כמעט, וכמובן עבור יצירות ארוכות ומורכבות.
יש כאן יתרון פוטנציאלי גם לאמנים מתחילים [אילוסטרציה: photos to go]
לכן, שינוי אופי המוסיקה לאורך השיר מצריך חלוקת השיר לקטעים לפני שיהיה אפשר לסווג כל קטע בנפרד. לצורך כך שאל ברינגטון טכניקה מתחום הראייה הממוחשבת. טכניקה זו נקראת "עירוב טקסטורות דינמיות" (DTM - Dynamic Texture Mixture). בראייה ממוחשבת, טקסטורה היא המרקם החזותי של קטע בתמונה. טקסטורות דינמיות הן מרקמים המשתנים עם הזמן. טכניקת DTM מאפשרת לתאר בצורה מתמטית קטע וידאו כעירוב בין טקסטורות שונות. ברינגטון הפעיל אותה שיטה מתמטית כדי לנתח את דגימות הצליל בשירים, כאשר הנקודה בזמן שבה מרקם דינמי אחד נעלם ומופיע מרקם דינמי אחר מזוהה על-ידי התוכנה כמעבר בין קטעים.
מכיוון שאותו תהליך זיהה את המרקם הצלילי של כל קטע, אפשר כעת גם למצוא מהי דרגת הדמיון בין קטעים משירים שונים. בהקשר של מחקר זה, "מרקם צלילי" מייצג מידע רב ודינמי, הכולל גם את אופי הצלילים הנשמעים (כמו סוג כלי הנגינה) וגם את האופי הקצבי של המוסיקה. בבדיקה שהשוותה את הסיווג האוטומטי של קטעי שירים מול סיווג שנעשה על-ידי בני אדם, נמצא כי שיטת DTM היתה מדויקת יותר משיטות ממוחשבות אחרות בזיהוי נקודות מעבר בין קטעים בשיר, וכי היא מצאה דמיון בין קטעים שגם המסווגים האנושיים תיארו כדומים.
בחלק השני של הכתבה: על פיתוח תוכנה שתסווג קטעי מוסיקה לפי הרגשות שהם מביעים, ותוכנה שתלחין שירים באופן אוטומטי»
מתוך: מגזין גליליאו
לעשיית מנוי, לקבלת גיליון מתנה
גולשים שקראו כתבה זו התעניינו גם ב: