שיפור בדיוק המנוע המורפולוגי

שלום לכולם

אנחנו ממשיכים בשיפור התשתיות ושמחים לראות את הגידול בהיקף השימוש, נשמח לשמוע ממכם למה אתם מייעדים את השרותים הקיימים.

בנתיים אילו החדשות שלנו -

שיפור משמעותי בדיוק המנוע המורפולוגי

בשבועיים האחרונים התמקדנו בשיפור המנוע המורפולוגי ואנו שמחים לבשר שהשגנו שיפור ניכר בדיוק. ביום ראשון (26 באוגוסט 2018) שחררנו גרסה חדשה הכוללת את השעפור בדיוק.

בנית קורפוס מנותח לעברית

התחלנו בפרוייקט תיוג טקסט ידני לבניית קורפוס מודרני ועדכני. אנו בשלבים ראשונים ולומדים כיצד לבצע תיוג אפקטיבי.

השיטה בה אנו נפעל היא ניתוח הטקסט אוטומטית על ידי המנוע ואחר כך בדיקה ידנית ותיקון שגיאות. נשמח לשמוע ממכם הצעות למקורות טקסט זמינים וטיפים מנסיונכם לביצוע המשימה.

יצוג תוצאות קריא לבני אדם

הוספנו שיטת יצוג תוצאות קריאה (על ידי בני אדם) לסיוע בתהליך התיוג - בשיטה הקיימת ייצגנו את המידע על ידי מבנה נתונים שאולי נוח מאד לתוכנות מחשב אבל קשה לתפיסה אנושית.

לדוגמא, ניתוח המילה "בבוקר" בשיטה הקיימת מציג את התוצאה הבאה (אגב נשמח לעצות לגבי שמות השדות שבחרנו):

    [
        [
            {
                        "BaseWord": "בוקר",
                        "Vav": false,
                        "Subordination": "NONE",
                        "PrepositionChars": "BET",
                        "DefiniteArticle": true,
                        "PartOfSpeech": "NOUN",
                        "Gender": "MALE",
                        "Plural": false,
                        "Person": "NONE",
                        "ConstructState": "NIFRAD",
                        "Tense": "NONE",
                        "OwnershipGender": "NONE",
                        "OwnershipPlural": false,
                        "OwnershipPerson": "NONE"
            },
            {
                        "BaseWord": "בוקר",
                        "Vav": false,
                        "Subordination": "NONE",
                        "PrepositionChars": "BET",
                        "DefiniteArticle": false,
                        "PartOfSpeech": "NOUN",
                        "Gender": "MALE",
                        "Plural": false,
                        "Person": "NONE",
                        "ConstructState": "NIFRAD",
                        "Tense": "NONE",
                        "OwnershipGender": "NONE",
                        "OwnershipPlural": false,
                        "OwnershipPerson": "NONE"
            },
            {
                        "BaseWord": "בוקר",
                        "Vav": false,
                        "Subordination": "NONE",
                        "PrepositionChars": "BET",
                        "DefiniteArticle": false,
                        "PartOfSpeech": "NOUN",
                        "Gender": "MALE",
                        "Plural": false,
                        "Person": "NONE",
                        "ConstructState": "NISMAK",
                        "Tense": "NONE",
                        "OwnershipGender": "NONE",
                        "OwnershipPlural": false,
                        "OwnershipPerson": "NONE"
            }
        ]
    ]
]

לא משהו ידידותי במיוחד וגם קשה לתפיסה מהירה, לפיכך הוספנו את השיטה "הקריאה". במקרה זה תוצאות הניתוח יראו כך:

[
    [
        [
                        "ה-ב-[בוקר]  (עצם)(נפרד)",
                        "ב-[בוקר]  (עצם)(נפרד)",
                        "ב-[בוקר]  (עצם)(נסמך)"
        ]
    ]
]

נשמח לשמוע עצות איך לתקן את הייצוג ולהפוך את התצוגה לנוחה יותר.

הגדלת התפוקה (Scaling)

לאור הגידול המשמעותי בכמות המשתמשים בשירותים ביצענו שיפור משמעותי מאד בתשתית השרות כך שיוכל לתמוך בעומסים גבוהים יותר,

לצערנו גילינו שמידי פעם יש תקלות קצרות בשרות (כפעמיים ביום ולפרקי זמן של עד כ - 20 שניות). אנו פועלים במרץ לאתר ולתקן תקלות אילו. מבחינתכם זה אומר לשפר את הקוד ולטפל במקרים בהם לא מתקבלת תשובה מהשרות, להמתין מעט זמן ולבצע RETRY.



בהזדמנות זו נאחל לכולם שנה טובה

בברכה

צוות HebrewNLP