הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

Unsupervised צריך הכנת נתונים?

More
17 years 11 months ago #1362 by Edith Ohri
אני לא מבינה את זה. אולי מישהו יודע להסביר, למה מודל שהוא Unsupervised צריך הכנת נתונים?

בכל המקומות שבהם קראתי על פתרונות מסוג זה, נדרש שלב ראשון של הכנת נתונים.
חשבתי שהמטרה של Unsupervised, היא להשתמש בנתונים כמו שהם.

אדית


בברכה
אדית

Please התחברות to join the conversation.

More
17 years 9 months ago #1706 by MatatovNissim
שלום , עדית !!!

כנראה מדובר בהכנת נתונים כללית (הוצאת חריגים , נרמול , טיפול בנתונים קטגוריאליים).
לדוגמה : רוב אלגוריתמים לניתוח שכולות משתמשים במידת המרחק ועם יש תכונת גובה ושנות השכלה ברור שמרחק בין 180 ס"ם ו 176 ס"ם לא כמו אותו הבדל בשנות לימוד (זה יכול להיות הבדל האם בן אדם עם תואר ראשון או שני שמאוד חשוב). הוצאות חריגים מאוד חשובה פה כי יכול ליצור אשכולות לא ברורים. עוד דוגמה , נניח Accisiations Rules מטפלים נראה לי ב נתונים קטגןריאליים . אז יכול להיות צריכים לחלק נתונים מספריים לטווחים . סביר להניח שפה יותר עדיפה חלוקה על בסיס ידע עסקי ולא משהו אוטומטית.

ראיתי גם אלגוריתמים לניתוח אשכולות שמטפלים בנתונים קטגוריאליים . אבל לא יודע עד כמה זה טוב.

אולי אם תגידי איפה קראת את זה מהקשר אפשר להבין יותר למה התכוונו.

Please התחברות to join the conversation.

More
17 years 8 months ago #1889 by Edith Ohri
תיקון.

ניסים, שלום

ההסבר שנתת עדיין משאיר לי משהו לא מובן, למרות שהוא בהחלט תואם למאמרים (מסתמכת על הזכרון; אין לי מתחת ליד ספרות לצטט ממנה). מפריע לי שניקוי הנתונים מוצג כתנאי הכרחי לצורך "הוצאת חריגים , נרמול , טיפול בנתונים קטגוריאליים". הצורך בניקוי נתונים נובע משיטת הפתרון, והוא לא צורך מהותי. הרי אם היה אפשר להשתמש בנתונים כמו שהם, בטח זה היה עדיף... זו לא דרישת משתמש אלא אילוץ שמוכתב ע"י פתרונות מסוימים.

לניקוי נתונים יש מחיר באבדן מידע. כל מידע עשוי להיות חשוב, אנחנו לא יודעים מראש. ניקוי פרטים בעלי ערכים קיצוניים או מיוחדים, מסלק אפשרויות להסבר נקודות קיצון מטרידות. אולי 'המשונים' שנוקו מתארים קצה של תופעה חשובה (נניח לקוחות בלתי מרוצים) שכדאי לקחת בחשבון? אולי הקיצוניים הם קטגוריה? או שהם התחלה של התפתחות חדשה? בלי שיהיה לנו מידע עליהם, איך נדע להתיחס לאירוע 'המשונה' הבא כאשר יגיע?


השאלה של מנתח נתונים היא מה נוח יותר לעבוד איתו: מודל מאסיבי כללי, או מודל שנכנס לדפוסי התנהגות ספציפיים. שניהם לגיטימיים... בעיני יש יתרון לשני. הוא מאפשר להתערב בתהליך.
לדוגמא, בניתוח לקוחות, בנוסף למעקב כללי על מספר הלקוחות החדשים, מענין לראות את דפוס השינוי כולו: מוצרים מיוחדים שהלקוחות החדשים קונים, שינוי בכמות הקנייה ללקוח, גידול בנתח השוק, הקשר בין מצטרפים חדשים למסע פרסום, וכו'. הצירוף של מאפיני התנהגות הלקוחות הוא משמעותי. גורם יחיד לא אומר מספיק, אם כל הגורמים מופיעים יחד תדלק נורה אדומה.


- אדית

users.actcom.co.il/~edit/#GT


בברכה
אדית

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.226 seconds