מתודולוגיה — איך עו:שק אוספת ומשווה מחירים
מקורות הנתונים
כל נתוני המחירים באתר מגיעים ממקור רשמי אחד: קבצי ה-XML שרשתות המזון בישראל מחויבות לפרסם מתוקף תקנת שקיפות המחירים(צו מזון, תשע"ה-2015). החוק מחייב כל רשת מזון גדולה לפרסם באופן פתוח ונגיש את מחירי כל המוצרים בכל הסניפים, בפורמט XML מובנה.
הנתונים מתפרסמים דרך שרתי הרשתות עצמן ומפוקחים על ידי רשות הגנת הצרכן והסחר ההוגן. אנחנו לא אוספים מחירים באמצעות גרידת אתרים (scraping) — כל המידע מגיע מהמקורות הרשמיים בלבד.
תדירות עדכון
צינור הנתונים שלנו רץ באופן אוטומטי מדי יום בשעה 03:00 לפנות בוקר (שעון ישראל). בכל ריצה, המערכת מורידה את קבצי המחירים העדכניים מכל הרשתות, מנתחת אותם, ומעדכנת את בסיס הנתונים.
המשמעות היא שהמחירים באתר משקפים את הנתונים הרשמיים שפורסמו ביום הקודם. שינויי מחיר שמתבצעים במהלך היום יופיעו באתר למחרת.
רשתות נתמכות
נכון להיום, עו:שק מעבדת נתונים מ-11 רשתות מזון ויותר, הכוללות 33 קמעונאים ויותר (כולל מותגי משנה וסניפים מקוונים). הרשתות כוללות בין היתר את שופרסל, רמי לוי, ויקטורי, יינות ביתן, חצי חינם, טיב טעם, מחסני השוק, אושר עד, סטופ מרקט, קשת טעמים ועוד.
אנחנו מוסיפים רשתות חדשות באופן שוטף ככל שהנתונים שלהן הופכים זמינים בפורמט הנדרש.
איך ההשוואה עובדת
תהליך ההשוואה מתבסס על שני שלבים עיקריים:
- התאמה לפי ברקוד — השלב הראשון והמדויק ביותר. כל מוצר מזוהה לפי קוד הברקוד הבינלאומי שלו (EAN/UPC). כאשר אותו ברקוד מופיע ביותר מרשת אחת, אנחנו יודעים בוודאות שמדובר באותו מוצר בדיוק.
- התאמה חכמה בעברית (Fuzzy Matching)— במקרים שבהם שם המוצר שונה בין רשתות (למשל "חלב טרי תנובה 3%" מול "חלב תנובה טרי 3 אחוז"), אלגוריתם ההתאמה שלנו מנרמל את השמות בעברית, מסיר תחיליות וסיומות, ומחפש התאמות סמנטיות. כך אנחנו מצליחים לזהות מוצרים זהים גם כשהשמות שונים במקצת.
דיוק הנתונים
המחירים המוצגים באתר מבוססים על נתונים רשמיים שפורסמו על ידי הרשתות עצמן, כפי שנדרש בחוק. הנתונים מתרעננים מדי יום, ולכן הם משקפים את המחירים העדכניים ביותר שפורסמו באופן רשמי.
שקיפות: כל מחיר שמוצג באתר מגיע ישירות מקובצי ה-XML הרשמיים של הרשתות. אנחנו לא עורכים, מעגלים או משנים את המחירים בשום צורה.
מגבלות ידועות
למרות שאנחנו שואפים לדיוק מרבי, חשוב להכיר מספר מגבלות:
- מחירים בחנות עשויים להיות שונים — המחירים באתר מבוססים על הנתונים הרשמיים שפורסמו. בפועל, ייתכנו הפרשים קטנים בין המחיר המפורסם לבין המחיר בקופה, בעיקר עקב עדכונים שטרם שוקפו בקבצים.
- מבצעים ופרומושנים — מבצעי מועדון, קופונים אישיים, הנחות כמותיות ומבצעים מיוחדים לא תמיד נכללים בקבצי ה-XML הרשמיים, ולכן ייתכן שלא יופיעו באתר.
- עיכוב של עד 24 שעות — מכיוון שהנתונים מתעדכנים פעם ביום, שינויי מחיר שבוצעו במהלך היום יופיעו באתר רק למחרת.
- זמינות מוצרים — העובדה שמוצר מופיע בנתוני הרשת אינה מבטיחה שהוא זמין פיזית בכל סניף. זמינות בפועל עשויה להשתנות.
שאלות נוספות?
אם יש לכם שאלות על המתודולוגיה שלנו או על אופן עיבוד הנתונים, נשמח לענות. צרו איתנו קשר.