ה-AI לא יתקן לך את הנתונים

קיבלתי לאחרונה שאלה מ-Controller בחברת SaaS:

"רונן, הרצתי את הנתונים שלנו דרך AI וקיבלתי תחזית מושלמת. הכל נראה טוב. אבל כשניסיתי לגשר בחזרה ל-GL — המספרים לא הסתדרו. מה קרה?"

אני שואל אותו: האם בדקת את הנתונים לפני שהכנסת אותם ל-AI?

שתיקה.

זו הבעיה. לא ה-AI. הנתונים שנכנסו.

AI לא דוחף חזרה — הוא עושה הנחות

כשאתה פותח Excel ורואה שתאריכים כתובים בשלושה פורמטים שונים — אתה עוצר. שואל. מתקן.

AI? הוא פשוט בוחר אחד וממשיך הלאה.

כשיש שורות כפולות? הוא מתייחס לכל שורה כעובדה. התוצאה — הכנסות מנופחות שנראות מושלמות על המסך, ושבורות לגמרי מתחת.

57% מהחברות מציינות שאמינות הנתונים היא המכשול הגדול ביותר להצלחה עם AI (Informatica CDO Insights 2026). ובינתיים, ה-Governance לא מדביק את קצב אימוץ ה-AI.

3 הבעיות שב-Data שלך (ש-AI מחמיר)

בעיה 1: פורמטים לא עקביים

תאריכים ב-DD/MM/YYYY, ב-MM/DD/YYYY, וגם כטקסט כמו "ינואר 15". מטבע באלפים בטבלה אחת ובאחדות בשנייה. "ישראל", "IL", "ISR" — שלוש מערכות, שלוש תשובות.

כשאתה עובד ידנית — אתה מבחין ומתקן. AI בוחר תשובה אחת ולא מספר לך.

בעיה 2: נתונים חסרים

קודי GL חסרים ב-15% מהעסקאות? תוסיף על זה את ה-AI שממלא את החסר על בסיס "דפוסים שהוא מזהה" — ותקבל נתונים שנראים שלמים, אבל חלקם פיקציה.

אין שום סימון שיגיד לך מה AI המציא ומה באמת היה שם.

בעיה 3: כפילויות ורשומות מלוכלכות

ידנית — כפילות מעצבנת אבל מזהים אותה. עם AI? כל שורה מתקבלת כעובדה. קופה כפולה = הכנסה כפולה. ואף אחד לא שואל עד שמישהו מנסה לגשר ל-General Ledger.

תשאלו את עצמכם: מה הציון של ה-Data שלכם?

לפני שמנקים — צריך להבין מה בדיוק שבור. השתמשו ב-RAG (Red / Amber / Green) על חמישה ממדים:

ממד	ירוק ✅	אדום 🔴
שלמות	כל השדות מלאים	יותר מ-10% חסר
עקביות	פורמט אחיד	מספר פורמטים
עדכניות	רענון יומי	רענון חודשי ומעלה
דיוק	100% מ-spot check תואם	פחות מ-80% תואם
נגישות	CSV נקי, tab יחיד	PDF, נעול, nested

בדרך כלל תמצאו Amber על שלמות, ו-Red על עקביות. שם מתחילים.

5 השלבים לניקוי נתונים עם AI — בצורה נכונה

שלב 1: ייצוא הנתונים הגולמיים

ייצאו את ה-Dataset הכי בעייתי שלכם — זה שהראה Amber או Red. Excel או CSV, מוכן לעבודה.

חוק ברזל: אל תיגעו בנתון המקורי. אי פעם.

שלב 2: ה-Prompt לניקוי

העלו לכלי AI מאובטח (מצב Reasoning) עם הפרומפט הזה:

יש לי Dataset פיננסי המשלב [תארו: עסקאות חיוב, חשבונות GL, פיוס בנקאי].
הבעיות הספציפיות הן:
1. שורות כפולות לפי מספר חשבונית
2. תאריכים בשלושה פורמטים שונים
3. קודי GL חסרים ב-15% מהעסקאות
4. נתונים מפוזרים על פני שלושה tabs

אני צריך שתעשה:
- זהה כפילויות וסמן אותן ב-tab חדש (אל תמחק)
- אחד את כל התאריכים לפורמט YYYY-MM-DD
- השלם קודי GL חסרים לפי תיאור העסקה + הרשימה שמצורפת
- אחד הכל ל-tab נקי אחד
- בנה הכל בנוסחאות, לא ערכים סטטיים
- צור tab סיכום עם ספירת רשומות לפני ואחרי
- השאר את הנתון המקורי ללא שינוי לחלוטין

שלב 3: אמתו את הפלט

בדקו 4 דברים:

סכומים זהים? סכמו הכנסות ב-Original מול Cleaned — חייב להיות זהה
ספירת שורות הגיונית? 4,200 הפכו ל-3,950? בדקו את סימוני הכפילויות
Sub-totals יציבים? הכנסות לפי מדינה לפני ואחרי — קפיצה פתאומית = בעיה
בדיקה ויזואלית: גרף עמודות של הכנסות לפי חודש. "הפיל בחדר" תמיד נראה ויזואלית לפני שהוא מופיע במספרים

שלב 4: בנו Governance Register

מי אחראי כשה-AI מייצר פלט שגוי?

בנו קובץ Excel פשוט שמתעדכן חודשי ועונה על:

איזה AI רץ?
מי הבעלים?
האם הנתונים מוכנים?
מה הסיכון?

זו שכבת ה-Control שלכם — וגם הגנת ה-Audit.

שלב 5: AI Audit — דגל לפני שמתקנים

לפני שמבקשים מה-AI לתקן — בקשו ממנו לדגל בלבד:

סקור את ה-Dataset הזה. זהה חריגות או פערים.
לכל בעיה שתמצא, ציין:
1. מה מצאת
2. למה זה חריג
3. מה יכול להסביר את זה
4. אל תשנה שום דבר. רק דגל.

כל דגל — שחזרו אותו ב-Excel בנוסחה. בנו tab Reconciliation עם תשובות Yes/No לכל שאלה. זה ה-Audit Trail שלכם.

טיפ: יש לכם הרבה נתונים לנקות? חתכו ל-chunks. AI מוגבל בכמות שהוא מעבד בבת אחת. עבודה בחלקים = תוצאות טובות יותר.

המסקנה

כלי ה-AI שקניתם, ההדרכות שנתתם, ה-Pilots שהרצתם — כל אלה שווים פחות אם הנתונים שמאחוריהם עדיין בעייתיים.

לא צריך נתונים מושלמים. צריך שיטה.

שמרו על הנתון הגולמי. בנו Audit Trail. שימו Governance.

כשעושים את זה נכון — כל פעם שמשתמשים ב-AI, הנתונים נהיים יותר נקיים, הפלטים יותר טובים, והצוות סומך על התהליך יותר.

רונן עמוס הוא רו"ח, יועץ CFO חיצוני ומומחה AI לפיננסים. מלמד צוותי כספים לעבוד חכם יותר עם AI.

הצטרפו לקהילת AI Finance | צרו קשר

ה-AI לא יתקן לך את הנתונים — הוא יסתיר שהם שבורים