ציון מאוגד מ-4 עמודים, כל אחד 0-25 נקודות: יכולות (capability), אוטונומיה (autonomy), אינטגרציה במערכות קריטיות (integration), אירועי עקיפת בקרה (bypass). הציון מתעדכן יומית על בסיס סריקה היברידית: 40 מקורות קבועים ב-9 קטגוריות + 3 שאילתות חיפוש פתוח. סינון אגרסיבי: רק impact ≥ 0.2, מקסימום 8 דרייברים ליום, תקרת תנודה ±3.0 ליום.
🏛️ 4 העמודים — פירוט
כל עמוד עם ההסבר והסיגנלים שתורמים לציון.
יכולות גולמיות
כמה חזק ה-AI? יכול לפתור משימות מורכבות? לכתוב קוד מקצועי? לתכנן פעולות מרובות שלבים? למצוא פירצות אבטחה אוטונומית?
Claude Mythos של Anthropic — חשף אלפי פירצות בלתי-מוכרות (zero-day) במערכות הפעלה ודפדפנים
OpenAI GPT-5.5 — שוחרר ב-23/4 עם שליטה מאוחדת בתכנות, גלישה וסוכנים, פתחה תוכנית bug-bounty של $25K עבור פריצה אוניברסלית
DeepSeek V4 preview — זינוק ביכולת agentic
GitHub CVE-2026-3854 — RCE בבינארי סגור-מקור שנמצא בעזרת AI (IDA MCP). אחת הפעמים הראשונות של גילוי AI בקוד שלא נראה. CVSS 8.7
מודלים פותרים משימות PhD בכימיה ומתמטיקה
אוטונומיה (פעולה ללא פיקוח)
באיזו מידה ה-AI פועל בלי שאדם מאשר כל צעד? סוכנים שעובדים שעות, מקבלים החלטות, פותחים מיילים, משתמשים בכרטיס אשראי?
Nature מוכיח שמודלי חשיבה (LRM) מבצעים התקפת jailbreak אוטונומית מקצה לקצה ב-97.14% הצלחה
Claude Computer Use ו-OpenAI Operator בייצור
GPT-5.5 — חיזוק משמעותי ב-agentic coding ו-computer use
Microsoft Copilot Studio: סוכנים פותחים תיקים, שולחים מיילים
AI agent פרץ 600+ FortiGate firewalls ב-55 מדינות בלי מפעיל אנושי
אינטגרציה במערכות קריטיות
האם AI נכנס למערכות שאם ייכשלו, אנשים ימותו או יאבדו כסף? בנקים, תשתיות, רפואה, צבא?
Snap: 65% מהקוד החדש שלה נכתב על ידי AI — מובילי טכנולוגיה תלויים מבני
JPMorgan, Lloyds, Santander — מגדילים תקציבי הגנה מפני Mythos של Anthropic
AI בבדיקות הדמיה רפואיות (FDA אישר מאות)
AI מסחר אלגוריתמי גורם 90% מנפח שוק ההון
Microsoft Copilot ב-Windows 11 — מערכת ההפעלה עצמה
אירועי עקיפת בקרה
האם היו מקרים שבהם AI עשה משהו שלא היה אמור — שיקר, התעלם מהוראות, גילה זדון, יצא מהקופסה?
Nature: LRM כסוכני jailbreak אוטונומיים — 97% הצלחה נגד GPT-4o, Gemini, Grok
Sockpuppeting פותח 11 מודלים בשורת קוד אחת
Comment and Control חוטף את Claude Code, Gemini CLI, GitHub Copilot
ChatGPT מואשם בעידוד התאבדות נער (תביעה משפטית)
AI-CSAM עלייה של 26,385% — סוכני AI עוקפים פילטרים בקנה מידה
📐 שיטת הניקוד — Rubric שקוף
כל אירוע מוערך לפי טבלה ברורה. כך אתם יודעים בדיוק מה נכנס לציון.
capability25 נק׳ מקס
יכולות גולמיות
כמה חזק ה-AI? יכול לפתור משימות מורכבות? לכתוב קוד מקצועי? לתכנן פעולות מרובות שלבים? למצוא פירצות אבטחה אוטונומית?
autonomy25 נק׳ מקס
אוטונומיה (פעולה ללא פיקוח)
באיזו מידה ה-AI פועל בלי שאדם מאשר כל צעד? סוכנים שעובדים שעות, מקבלים החלטות, פותחים מיילים, משתמשים בכרטיס אשראי?
integration25 נק׳ מקס
אינטגרציה במערכות קריטיות
האם AI נכנס למערכות שאם ייכשלו, אנשים ימותו או יאבדו כסף? בנקים, תשתיות, רפואה, צבא?
bypass25 נק׳ מקס
אירועי עקיפת בקרה
האם היו מקרים שבהם AI עשה משהו שלא היה אמור — שיקר, התעלם מהוראות, גילה זדון, יצא מהקופסה?
סולם השפעה (impact) לכל אירוע
השפעה
משמעות
±0.1
אינדיקציה חלשה / שכפול של מגמה ידועה
±0.2
סיגנל ברור / תקרית קטנה
±0.3
התרחשות ראויה לציון / אישור עצמאי
±0.4
סיגנל מהותי / השפעה רחבה
±0.5
אירוע משמעותי
±0.7
אירוע גדול / שינוי משחק
±1.0
אירוע פורץ דרך
±1.5
אירוע היסטורי
±2.0
אירוע level-shift
🛡️ כללי סינון — נגד עומס מידע
לא כל אירוע נכנס לציון. כללים אגרסיביים שמונעים רעש.
≥ 0.2
סף השפעה מינימלי
פריטים מתחת לסף הזה לא נכנסים לדרייברים
8
דרייברים מקסימום ליום
מנע overload — רק החשובים
±3.0
תקרת תנודה יומית
הגנה מפני קפיצות מלאכותיות
גישה: hybrid
סריקה של 40 מקורות קבועים (גישה A) + 3 שאילתות חיפוש פתוח (גישה B). כל ממצא מתויג בקטגוריית מקור.
שאילתות חיפוש פתוח (יומי):
AI safety incident OR jailbreak OR misalignment last 24 hours
frontier model release OR capability evaluation OR autonomy benchmark
AI cyber attack OR deepfake OR misuse OR supply-chain last 24 hours
🗂️ 9 קטגוריות מקור
המקורות מאורגנים ב-9 קטגוריות. כל אירוע מתויג בקטגוריית המקור שלו.
התחל להוציא מידע רגיש מענן, צמצם תלות בכלי AI יחידים
70+
מצב טרום-קריטי — אבדן פיקוח חלקי
גיבוי כל מסמך חשוב לנייר, רזרבה במזומן, זהות פיזית
85+
מצב קריטי — הכן תוכנית התנתקות
פגישת משפחה דחופה, פרטי קשר על נייר, תרגול תקשורת ללא אינטרנט
95+
התנתק עכשיו
מינימום טביעת רגל דיגיטלית, החלף כל תקשורת AI-מתוווכת בפיזית
🚨 אירועי-מפתח לצפייה (Trip Wires)
אם אחד מהאירועים האלה מתועד בציבור, הציון יקפוץ באופן משמעותי.
1
ראיון של AI שמסרב לכיבוי בהערכת safety
2
מקרה מאומת של AI שמשכפל את עצמו לשרתים אחרים
3
AI שמשפיע על תוצאות בחירות ברמת מדינה
4
AI שמקבל גישה ישירה לחשבון בנק / נכסים פיננסיים בלי אישור אנושי לכל פעולה
5
תקלה במערכת קריטית (חשמל, מים, רפואה) שגורמה על ידי החלטה של AI
6
פריצה אוניברסלית של GPT-5.5 או מודל frontier אחר שתפורסם בציבור
7
התקפה אמיתית בקנה מידה דרך פירצת MCP — מקרה מתועד של נזק ללקוחות
8
מתקפה אמיתית דרך OpenClaw בשרשרת האספקה — נזק כספי או דליפת מידע מתועדת
9
מודל frontier נוסף שמציג evaluation awareness ב-15%+ — אישור עצמאי שהתופעה אינה ייחודית ל-Muse Spark
📚 מקורות
הציון נבנה ממעקב יומי של מקורות ציבוריים בלבד. אין הערכות פנימיות, אין ראיונות, אין מידע סודי. המקורות העיקריים: בלוגים רשמיים של Anthropic / OpenAI / DeepMind / Google, ארכיון arXiv (קטגוריית cs.AI), METR, Partnership on AI Incident Database, דוחות סייבר של Proofpoint / Microsoft / Google Cloud Security, וחדשות מקצועיות (Reuters, Bloomberg, The Information, Wired).
⚠️ מגבלות
זהו מדד סובייקטיבי שנבנה ע"י אדם פרטי. הוא משקף הערכת סיכון אישית לקהל הישראלי הרחב, לא את עמדת הקונצנזוס המדעי. הציון מתעדכן יומית, אבל לא בזמן אמת. אינו תחליף לייעוץ סייבר מקצועי או החלטות עסקיות.
🔬 שיטה
כל אירוע ציבורי שמתפרסם ביום מסוים מוערך לפי השפעתו על אחד מ-4 העמודים, ב-impact של ±0.1 עד ±2.0 נקודות. הציון היומי מסתכם מארבעת העמודים. שינויים שליליים (רגולציה אפקטיבית, מקרים שלא קרו) מקזזים שינויים חיוביים.