בלוג
ממשיכים בשיפור המערכת
HebrewNLP ממשיך לגדול ולצבור תאוצה - מספר השאילתות היומי שלנו שובר שיאים. לפני שנתיים כשהשקנו את אתר חשבנו שיהיו לנו כמה עשרות משתמשים. לא יאומן ששגינו בסדרי גודל וקצב הרישום לאתר ממשיך לגדול. אז מה חדש ועל מה ענו עובדים בימים אילו ?
- אחנו מגדילים את כיסוי הישויות ועובדים על שיפור האלגוריתמים. מילון הישויות הורחב (קיטלגנו מעל חצי מיליון ישויות בשנתיים האחרונות) ועוד היד נטויה.
- אנו משפרים את התוכנה והופכים אותה ליעילה ומהירה יותר כדי שנוכל להמשיך לספק את השירות בצורה יעילה תוך מזעור המשאבים הנדרשים וכדי לעמוד בביקוש.
- יחד עם קולגות שלנו מכמה חברות עבדנו בחודשים האחרונים מאחורי הקלעים למען הקמת איגוד חברות לטכנולוגיות שפת אנוש (NLP) בעברית ובערבית עליו הוכרז ב 22 לספטמבר השנה. כמובן שאנחנוו ברשימת המייסדים (אינפונטו בע"מ)- משימתו העיקרית של האיגוד היא בניית קורפוס מתוייג נרחב לשפה העברית ובכך האיגוד ימשיך את הפעילות שהתחלנו לפני כשנה ומחצה ובהיקף נרחב אף יותר.
שדרוג האביב הגיע
המילון ממשיך להתרחב וכמו כן שיפור נוסף באלגוריתם המורפולגי
שדרוג נוסף ומידע על פרוייקט תיוג הקורפוס הגדול לעברית
המילון שלנו ממשיך לגדול בקצב מהיר והכל הודות לפרוייקט הקורפוס המתויג לשפה העברית שפועל אצלנו מאוגוסט 2019
חג חנוכה מגיע ואיתו שדרוג החורף
שלום חברים
שדרוג החורף כאן ואיתו שיפור נוסף בדיוק הניתוח.
המנוע המורפולוגי מחזיר את מילת הבסיס כולל ניקוד.
אם בעבר מפתח היה שם עצם אחד עכשיו אפשר לדעת בדיוק איזה מפתח באמת נמצא:
- "[מִפְתָּח]-יחיד-ז (עצם)(נפרד)"
- "[מַפְתֵּחַ]-יחיד-ז (עצם)(נפרד)"
- "[מְפַתֵּחַ]-יחיד-ז (עצם)(נפרד)"
- "מ-[פֶּתַח]-יחיד-ז (עצם)(נפרד)"
- "מ-[פַּתָּח]-יחיד-ז (עצם)(נפרד)"
הניקוד מאפשר לנו לבצע הפרדה נכונה בצורה קריאה ונוחה.
בחודשים האחרונים אנו עוסקים בתיוג קורופוס נרחב לשפה העברית, כנראה אחד הקורפוסים הנרחבים ביותר שהוכנו במדינת ישראל.
הודות לכך בכל עדכון אנו רואים שיפורים בדיוק הניתוח המורפולוגי, כמו כן אנו מגדילים בהדרגה את הלקסיקון שלנו.
שדרוג הסתיו של HebrewNLP כאן
שלום לכם
שדרוג הסתיו סוף סוף כאן ואיתו שיפור נוסף בדיוקים ושירות איתור ישויות
- לבקשת המשתמשים תצוגת הניתוח הקריא כוללת עכשיו גם את המגדר.
- איתור ישויות בגרסאת בטא זמין לשימושכם.
HebrewNLP בהתקנה מקומית
שלום לכם
לאור הבקשות הרבות לאפשר התקנה מקומית של רכיבי HebrewNLP אנו משחררים גרסה להתקנה מקומית בארגון שלכם:
- בחרו את השרות אותו אתם צריכים.
- בנו לקסיקון פרטי למושגים פנים אירגוניים שאינכם רוצים לחשוף.
- אפשרות להתקנה Embedded או כשירות על שרת פרטי שלכם.
שיפורים רבים בדיוק וביכולות
שלום לכולם
לאחר עבודה מאומצת של כמה חודשים אנחנו שמחים לבשר על שיפורים משמעותיים בשרות.
- שיפור דיוק המנוע המורפולוגי ונרמול המילים בצורה משמעותית מאד (דיוק של כ 96% בנרמול מילים)
- הגדלנו את הקורפוס עליו אנחנו מתבססים פי 3 מגודלו המקורי.
- שיפור משמעותי בזיהוי ושליפה של שמות ישובים
שיפור בדיוק המנוע המורפולוגי
שלום לכולם
אנחנו ממשיכים בשיפור התשתיות ושמחים לראות את הגידול בהיקף השימוש, נשמח לשמוע ממכם למה אתם מייעדים את השרותים הקיימים.
- שיפור משמעותי בדיוק המנוע המורפולוגי
- בנית קורפוס מנותח לעברית
- יצוג תוצאות קריא לבני אדם
- הגדלת התפוקה (Scaling)
שליפת ישויות וניתוח שמות
שלום לכולם
החופש קצת מאיט אותנו... אבל אנחנו ממשיכים לשפר -
- שינוי בשירות נרמול מילים
- שירות ניתוח שמות
- שירות שליפת ישובים ישראלים
- שינוי בשרות תרגום שמות
תרגום שמות אנגלי-עברי
שלום לכולם
אנחנו עובדים במרץ על שיפור היכולות הקיימות ובמקביל הוספנו יכולת חדשה.
לאחר מאמץ משמעותי פיצחנו את תרגום שמות עבריים מאנגלית לעברית - אחד הנושאים שהעסיק אותנו מזה זמן רב.
מעכשיו HebrewNLP יודע
לתרגם שמות עבריים בכתיב לועזי לשמות בעברית
, לדוגמא:
Haim
יחזיר את השם המתורגם:
חיים
כרגיל בידקו, נסו, דווחו על תקלות ותנו הצעות לשיפור - אתם מסייעים לנו להשתפר כל הזמן ואנו ממש שמחים שיש לנו קהל כל כך נלהב.
דבר אחרון - חשוב לנו גם לשמוע אילו מהשימושים הבאים מעניין אותכם:
- שליפת ישויות מטקסט (שמות של אנשים, מקומות מוסדות)
- שיפר המנוע המורפולוגי ביכולות סמנטיות (ניתוח תלוי הקשר שישפר מאד את הדיוק)
- סיווג טקסטים לתחומים שונים
- ניתוח סנטימט לטקסטים (הקשר חיובי/שלילי/נטריילי וכלפי מי)
בברכה
צוות HebrewNLP
יכולות חדשות וסאונדקס דו-לשוני
שלום לכולם.
אנחנו ממשיכים להרחיב את השרותים ולשפרם,
לאור בקשות שעלו הוספנו שתי יכולות חדשות:
- לבקשת רבים מעכשיו אפשר להעביר לממשק טקסט שלם בלי צורך לחלקו למילים, במקרה זה השרות יחלק את הטקסט למשפטים ואת המשפטים למילים ללא כל צורך בהכנות מקדימות (כל הפרטים בתעוד וכמובן נשמח לענות לשאלות).
- בקשה נוספת שחזרה היתה לגבי SOUNDEX דו לשוני -למי שלא מכיר את הנושא צרפנו הסבר בהמשך ( קרא עוד ).
כרגיל נשמח לקבל משוב ולשמוע ממכם מה הצרכים שלכם.
בברכה
צוות HebrewNLP קרא עוד
חלוקה למשפטים ספרית Java ושיפורים
שלום לכולם,
אנחנו ממשיכים בשיפור היכולות ומרחיבים את המנוע המורפולוגי, בהתאם למשוב שאנחנו מקבלים (וכאן ההזדמנות להודות לתגובות ולשיתוף הפעולה שלכם):
- הוספנו שרות חלוקה למשפטים - מה שנראה כמשימה כל כך פשוטה הוא דבר די מורכב כיוון, שנקודה יכולה להופיע לא רק בסוף משפט (לדוגמא - י.ב.מ. ישראל מציעה פתרונות עסקיים וטכנולוגיים לחברות וגופים).
- שיפרנו את המנוע המורפולוגי בניתוח שמות עצם - מעכשיו אנו מנתחים את שם העצם ומחזירים (במידת האפשר) נרמול לצורת זכר כאשר בשדה המגדר (Gender) מוצג אם מדובר בזכר או נקבה.
- הוספנו ספריה ל- Java , נשמח לדעת באיזו שפת תכנות אתם משתמשים כדי שנוכל להוסיף ספריות ודוגמאות בשפת התכנות האהובה עליכם.
נשמח לשמוע ממכם,
שבוע טוב
צוות HebrewNLP