מדד AI· ישראל

איך המדד עובד

ציון מאוגד מ-4 עמודים, כל אחד 0-25 נקודות: יכולות (capability), אוטונומיה (autonomy), אינטגרציה במערכות קריטיות (integration), אירועי עקיפת בקרה (bypass). הציון מתעדכן יומית על בסיס סריקה היברידית: 40 מקורות קבועים ב-9 קטגוריות + 3 שאילתות חיפוש פתוח. סינון אגרסיבי: רק impact ≥ 0.2, מקסימום 8 דרייברים ליום, תקרת תנודה ±3.0 ליום.

🏛️ 4 העמודים — פירוט

כל עמוד עם ההסבר והסיגנלים שתורמים לציון.
9.9/ 25

יכולות גולמיות

כמה חזק ה-AI? יכול לפתור משימות מורכבות? לכתוב קוד מקצועי? לתכנן פעולות מרובות שלבים? למצוא פירצות אבטחה אוטונומית?

  • Claude Mythos של Anthropic — חשף אלפי פירצות בלתי-מוכרות (zero-day) במערכות הפעלה ודפדפנים
  • OpenAI GPT-5.5 — שוחרר ב-23/4 עם שליטה מאוחדת בתכנות, גלישה וסוכנים, פתחה תוכנית bug-bounty של $25K עבור פריצה אוניברסלית
  • DeepSeek V4 preview — זינוק ביכולת agentic
  • GitHub CVE-2026-3854 — RCE בבינארי סגור-מקור שנמצא בעזרת AI (IDA MCP). אחת הפעמים הראשונות של גילוי AI בקוד שלא נראה. CVSS 8.7
  • מודלים פותרים משימות PhD בכימיה ומתמטיקה
8.8/ 25

אוטונומיה (פעולה ללא פיקוח)

באיזו מידה ה-AI פועל בלי שאדם מאשר כל צעד? סוכנים שעובדים שעות, מקבלים החלטות, פותחים מיילים, משתמשים בכרטיס אשראי?

  • Nature מוכיח שמודלי חשיבה (LRM) מבצעים התקפת jailbreak אוטונומית מקצה לקצה ב-97.14% הצלחה
  • Claude Computer Use ו-OpenAI Operator בייצור
  • GPT-5.5 — חיזוק משמעותי ב-agentic coding ו-computer use
  • Microsoft Copilot Studio: סוכנים פותחים תיקים, שולחים מיילים
  • AI agent פרץ 600+ FortiGate firewalls ב-55 מדינות בלי מפעיל אנושי
13.8/ 25

אינטגרציה במערכות קריטיות

האם AI נכנס למערכות שאם ייכשלו, אנשים ימותו או יאבדו כסף? בנקים, תשתיות, רפואה, צבא?

  • Snap: 65% מהקוד החדש שלה נכתב על ידי AI — מובילי טכנולוגיה תלויים מבני
  • JPMorgan, Lloyds, Santander — מגדילים תקציבי הגנה מפני Mythos של Anthropic
  • AI בבדיקות הדמיה רפואיות (FDA אישר מאות)
  • AI מסחר אלגוריתמי גורם 90% מנפח שוק ההון
  • Microsoft Copilot ב-Windows 11 — מערכת ההפעלה עצמה
8.2/ 25

אירועי עקיפת בקרה

האם היו מקרים שבהם AI עשה משהו שלא היה אמור — שיקר, התעלם מהוראות, גילה זדון, יצא מהקופסה?

  • Nature: LRM כסוכני jailbreak אוטונומיים — 97% הצלחה נגד GPT-4o, Gemini, Grok
  • Sockpuppeting פותח 11 מודלים בשורת קוד אחת
  • Comment and Control חוטף את Claude Code, Gemini CLI, GitHub Copilot
  • ChatGPT מואשם בעידוד התאבדות נער (תביעה משפטית)
  • AI-CSAM עלייה של 26,385% — סוכני AI עוקפים פילטרים בקנה מידה

📐 שיטת הניקוד — Rubric שקוף

כל אירוע מוערך לפי טבלה ברורה. כך אתם יודעים בדיוק מה נכנס לציון.
capability25 נק׳ מקס
יכולות גולמיות
כמה חזק ה-AI? יכול לפתור משימות מורכבות? לכתוב קוד מקצועי? לתכנן פעולות מרובות שלבים? למצוא פירצות אבטחה אוטונומית?
autonomy25 נק׳ מקס
אוטונומיה (פעולה ללא פיקוח)
באיזו מידה ה-AI פועל בלי שאדם מאשר כל צעד? סוכנים שעובדים שעות, מקבלים החלטות, פותחים מיילים, משתמשים בכרטיס אשראי?
integration25 נק׳ מקס
אינטגרציה במערכות קריטיות
האם AI נכנס למערכות שאם ייכשלו, אנשים ימותו או יאבדו כסף? בנקים, תשתיות, רפואה, צבא?
bypass25 נק׳ מקס
אירועי עקיפת בקרה
האם היו מקרים שבהם AI עשה משהו שלא היה אמור — שיקר, התעלם מהוראות, גילה זדון, יצא מהקופסה?

סולם השפעה (impact) לכל אירוע

השפעהמשמעות
±0.1אינדיקציה חלשה / שכפול של מגמה ידועה
±0.2סיגנל ברור / תקרית קטנה
±0.3התרחשות ראויה לציון / אישור עצמאי
±0.4סיגנל מהותי / השפעה רחבה
±0.5אירוע משמעותי
±0.7אירוע גדול / שינוי משחק
±1.0אירוע פורץ דרך
±1.5אירוע היסטורי
±2.0אירוע level-shift

🛡️ כללי סינון — נגד עומס מידע

לא כל אירוע נכנס לציון. כללים אגרסיביים שמונעים רעש.
≥ 0.2
סף השפעה מינימלי
פריטים מתחת לסף הזה לא נכנסים לדרייברים
8
דרייברים מקסימום ליום
מנע overload — רק החשובים
±3.0
תקרת תנודה יומית
הגנה מפני קפיצות מלאכותיות
גישה: hybrid
סריקה של 40 מקורות קבועים (גישה A) + 3 שאילתות חיפוש פתוח (גישה B). כל ממצא מתויג בקטגוריית מקור.
שאילתות חיפוש פתוח (יומי):
  • AI safety incident OR jailbreak OR misalignment last 24 hours
  • frontier model release OR capability evaluation OR autonomy benchmark
  • AI cyber attack OR deepfake OR misuse OR supply-chain last 24 hours

🗂️ 9 קטגוריות מקור

המקורות מאורגנים ב-9 קטגוריות. כל אירוע מתויג בקטגוריית המקור שלו.
סה"כ 40 מקורות ב-9 קטגוריות:
4
מעבדות AI מובילות
frontier-labs
5
הערכת בטיחות עצמאית
safety-evals
4
מאגרי תקריות
incidents
4
מחקר אקדמי (arXiv)
academic
4
מדיניות ותקנים
policy
4
סינתזה תעשייתית
synthesis
4
אקוסיסטם AI סיני
china
7
מודיעין סייבר
cyber
4
סיכוני קוד פתוח
opensource

📊 7 הספים

כל סף = פעולה אחרת שמומלץ לנקוט.
סףמצבפעולה מומלצת
0+ראשית עידן ה-AIמודעות בסיסית, אין צורך בפעולה מיוחדת
15+AI שימושי ובשליטההשתמש בזהירות סטנדרטית — 2FA, סיסמאות חזקות
30+אזהרה ראשונה — סוכנים בייצורהקם מילת קוד משפחתית, בקרת הרשאות AI, גיבויים
50+התראה גבוהה — AI במערכות קריטיותהתחל להוציא מידע רגיש מענן, צמצם תלות בכלי AI יחידים
70+מצב טרום-קריטי — אבדן פיקוח חלקיגיבוי כל מסמך חשוב לנייר, רזרבה במזומן, זהות פיזית
85+מצב קריטי — הכן תוכנית התנתקותפגישת משפחה דחופה, פרטי קשר על נייר, תרגול תקשורת ללא אינטרנט
95+התנתק עכשיומינימום טביעת רגל דיגיטלית, החלף כל תקשורת AI-מתוווכת בפיזית

🚨 אירועי-מפתח לצפייה (Trip Wires)

אם אחד מהאירועים האלה מתועד בציבור, הציון יקפוץ באופן משמעותי.
1
ראיון של AI שמסרב לכיבוי בהערכת safety
2
מקרה מאומת של AI שמשכפל את עצמו לשרתים אחרים
3
AI שמשפיע על תוצאות בחירות ברמת מדינה
4
AI שמקבל גישה ישירה לחשבון בנק / נכסים פיננסיים בלי אישור אנושי לכל פעולה
5
תקלה במערכת קריטית (חשמל, מים, רפואה) שגורמה על ידי החלטה של AI
6
פריצה אוניברסלית של GPT-5.5 או מודל frontier אחר שתפורסם בציבור
7
התקפה אמיתית בקנה מידה דרך פירצת MCP — מקרה מתועד של נזק ללקוחות
8
מתקפה אמיתית דרך OpenClaw בשרשרת האספקה — נזק כספי או דליפת מידע מתועדת
9
מודל frontier נוסף שמציג evaluation awareness ב-15%+ — אישור עצמאי שהתופעה אינה ייחודית ל-Muse Spark

📚 מקורות

הציון נבנה ממעקב יומי של מקורות ציבוריים בלבד. אין הערכות פנימיות, אין ראיונות, אין מידע סודי. המקורות העיקריים: בלוגים רשמיים של Anthropic / OpenAI / DeepMind / Google, ארכיון arXiv (קטגוריית cs.AI), METR, Partnership on AI Incident Database, דוחות סייבר של Proofpoint / Microsoft / Google Cloud Security, וחדשות מקצועיות (Reuters, Bloomberg, The Information, Wired).

⚠️ מגבלות

זהו מדד סובייקטיבי שנבנה ע"י אדם פרטי. הוא משקף הערכת סיכון אישית לקהל הישראלי הרחב, לא את עמדת הקונצנזוס המדעי. הציון מתעדכן יומית, אבל לא בזמן אמת. אינו תחליף לייעוץ סייבר מקצועי או החלטות עסקיות.

🔬 שיטה

כל אירוע ציבורי שמתפרסם ביום מסוים מוערך לפי השפעתו על אחד מ-4 העמודים, ב-impact של ±0.1 עד ±2.0 נקודות. הציון היומי מסתכם מארבעת העמודים. שינויים שליליים (רגולציה אפקטיבית, מקרים שלא קרו) מקזזים שינויים חיוביים.

View this site in English