חדשות

קריאת מאמרים מהירה

חדשות2 בדצמבר 2019    2 דקות
0

שיטה אוטומטית שפתוחה באוניברסיטת בן גוריון תתמצת טקסטים ארוכים בכל שפה

קריאת מאמרים מהירה
"חשובה ביותר למנועי חיפוש". פרופ' מרק לסט | צילום: דני מכליס אוניברסיטת בן גוריון

עם הגידול העצום בטקסטים מקוונים, עולה הצורך בשיטות אוטומטיות לתמצות קבצי טקסט, כמו מאמרים או ראיונות, לצורך המשך העיבוד, ובמקביל מתקצר והולך הזמן העומד לרשותנו במטרה לעבור על הכמויות העצומות של טקסטים שמתפרסמים. ל"שבע" נמסר, שמשום כך, נחוצות שיטות אוטומטיות לתמצות טקסטים כתובים.

רוב השיטות האוטומטיות הקיימות כיום הן תלויות שפה, והאלגוריתמים שבבסיסן צריכים לעבור אימון מוקדם על כמויות גדולות של טקסט. כעת Technologies BGN (חברת מסחור הטכנולוגיה של אוניברסיטת בן גוריון), מציגה כלי חדש ואוטומטי לתמצות טקסטים, שאינו תלוי שפה. השיטה ישימה לתמצות מאמרים, כתבי עת, מסמכים וטקסטים אחרים במסגרת המאגרים עצמם או עבור משתמשי קצה כמו ספריות, מכוני מחקר או מנועי חיפוש כלליים.

השיטה החדשה, שהומצאה בידי פרופ' מרק לסט, ד"ר מרינה ליטבק וד"ר מנחם פרידמן, מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטה, מספקת תקצירים של טקסטים בשפות שונות, על סמך אלגוריתם המדרג את המשפטים במסמך, בעזרת מאפיינים סטטיסטיים של המשפטים. את הדירוג הזה ניתן לבצע למשפטים בכל שפה שהיא, ואז לחלץ משפטים בעלי דירוג גבוה לכדי תקציר. השיטה, הקרויה MUSE (קיצור של מחלץ משפטים רב לשוני), נבדקה ב-9 שפות (אנגלית, עברית, ערבית, פרסית, רוסית, סינית, גרמנית, צרפתית וספרדית), ואיכות התמצות שלה נבחנה עד כה ב-4 שפות (אנגלית, עברית, ערבית ופרסית), והראתה דמיון רב לתקצירים שנעשו בידי בני אדם.

ניסויים מראים שלאחר אימון ראשוני של האלגוריתמים על מאגר מוער של תקצירי מסמכים, בו כל מסמך מלווה במספר תקצירים מעשה ידי אדם, התוכנה איננה חייבת לעבור אימון מחדש על תקצירים ידניים בשפות חדשות, ואותו מודל לדירוג משפטים יכול לשמש מספר שפות שונות.

פרופ' לסט: "תמצות מסוג זה, שבוחר את המשפטים הרלוונטיים ביותר מתוך הטקסט, דרך דירוגם, חיוני כדי לייצר במהירות סיכומים של כמויות טקסט גדולות בשפות שונות. יכולת זו חשובה ביותר למנועי חיפוש, כמו גם עבור משתמשי קצה כגון מכוני מחקר, ספריות והמדיה".

צפריר לוי (סמנכ"ל פיתוח עסקי ב-BGN Technologies): "כלי זה יהווה תוספת רבת ערך ליכולת שלנו להפיק תועלת מהכמויות העצומות של טקסט הזמינות באופן מקוון. לאחר שהגשנו בקשת פטנט עבור הטכנולוגיה, אנחנו מחפשים כעת שותפים פוטנציאליים להמשך הפיתוח והמסחור של המצאה מבטיחה זו".

כתבות נוספות בחדשות

0

תושבת תל שבע נעצרה בחשד לקדר עם...

"זריחה מוקדמת": בפשיטה של כוחות המשטרה של המחוז הדרומי נעצרה תושבת תל שבע, קרובת משפחה של בכיר בארגון הטרור חמאס, בחשד לקיום קשר עם פעילי חמאס והזדהות עם ארגון הטרור תוך ביצוע הסתה ותמיכה למעשה טרור בישראל.

חדשות1 באפריל 2024    דקה אחת
0

יריד שישי במדרחוב קק"ל חוזר

ביריד המתחדש יציגו מעל 30 דוכנים מקוריים לצד העסקים במדרחוב, הברים התוססים ושדרת האוכל העשירה במקום באווירה שמחה עם מופעים של נגני רחוב. לצד היריד חוזר גם שוק האיכרים המתקיים במימון המשרד הנגב, הגליל והחוסן הלאומי, ויציע תוצרת מגוונת ועשירה של חקלאי האזור

חדשות25 במרץ 2024    דקה אחת

כתיבת תגובה