יכולות חדשות וסאונקס דו-לשוני

שלום לכולם.

אנחנו ממשיכים להרחיב את השרותים ולשפרם,
לאור בקשות שעלו הוספנו שתי יכולות חדשות:

  • לבקשת רבים מעכשיו אפשר להעביר לממשק טקסט שלם בלי צורך לחלקו למילים, במקרה זה השרות יחלק את הטקסט למשפטים ואת המשפטים למילים ללא כל צורך בהכנות מקדימות (כל הפרטים בתעוד וכמובן נשמח לענות לשאלות).
  • בקשה נוספת שחזרה היתה לגבי SOUNDEX דו לשוני -למי שלא מכיר את הנושא צרפנו הסבר בהמשך.
אנו ממשיכים לשפר גם את המנוע המורפולוגי תוך שיפור הניתוח.
כרגיל נשמח לקבל משוב ולשמוע ממכם מה הצרכים שלכם.

בברכה
צוות HebrewNLP

וכבמובטח הסבר על ה SOUNDEX.

הבעיה:

יש לכם מאגר מידע עם שמות, חלק מהשמות באנגלית וחלק בעברית ויש גם שגיאות כתיב - אתם רוצים לטייב את הנתונים במאגר ולאתר כפילויות שגיאות וכו'.

פתרונות אפשריים:

  1. עבודה ידנית וסיזיפית - יעלה לכם בזמן יקר ומשאבי כוח אדם...
  2. שימוש ב SOUNDEX הרב לשוני שלנו.

אנו מאפשרים לכם להשתמש באלגוריתם SOUNDEX דו לשוני (עברית, אנגלית וגם שפות לטיניות נוספות). השרות מאפשר להזין רשימת שמות ולקבל עבור כל שם ערך מספרי מיוחד שמייצג את הדרך בה הוא נשמע.

כל השמות הדומים בשמיעה יקבלו את אותו הערך - זהו זה - עכשיו ניתן לזהות בקלות את הכפילויות.

דוגמא:
במאגר מופיע השם חיים כמה פעמים:

  • חיים
  • CHAIM
  • HAIM
  • KHAIM
נזין את כל האפשרויות לממשק וזו התוצאה:
עבור חיים, HAIM, KHAIM נקבל את הערך 2067567631
וגם עבור CHAIM נקבל 2067567631 ( וגם ערך נוסף - 2067566608 לחלק מהשמות תקבלו ערך אחד ולחלק שני ערכים במקרה שניתן להגות את השם ביותר מדרך אחת)

קל לראות איך מנצלים שיטה זו לזהות את כפילויות, השיטה כמובן תעבוד על שמות של יישובים, חברות מוסדות וכו'.

אשקלון, ASHKELON ו ASHQELON - לכולם אותו הערך 2470080403.