פרופ' יוסף לוין

פסיכיאטר מומחה בכיר

ינו

20

2026

בין חישוב להמצאה: דו-שיח וכתבה על גבולות הבינה המלאכותית בסיוע למחקר

נכתב ע"י פרופ' לוין

נכתב על ידי פרופ' יוסי לוין וד"ר איגור סלגניק

שלמה הנבון: איש תם, נתחיל באמירה חדה: שום מערכת שיחה מבוססת מודל שפה גדול אינה “חוקרת” במובן האנושי. היא יכולה לעבד טקסט, להציע ניסוחים, להדגים לוגיקה, ולעזור לך לארגן מחשבה; אבל היא לא מקור נתונים, לא מקור ראיות, ולא תחליף לבדיקת עובדות, מקורות, וניתוח שיטתי על ידך.

איש תם: אבל היא נשמעת לפעמים כמו חוקר. היא עונה מהר, עם ביטחון, ועם המון פרטים. אז מה בעצם ההבדל בין “נשמע חוקר” לבין “חוקר”?

שלמה הנבון: ההבדל הוא אחריות ומגע עם המציאות. חוקר מחויב להראות: מה הנתון, מאיפה הוא, איך נמדד, מה איכות המדידה, איך נותחו התוצאות, מה גבולות ההסקה, ואיך כל זה ניתן לשחזור. מודל שפה גדול יכול להפיק טקסט משכנע גם כשאין לו בסיס נתונים אמיתי מאחוריו, או כשהבסיס חלקי. הוא יכול גם “להשלים” חורים בצורה יפה מבחינה לשונית אך לא נכונה עובדתית. זו לא רשלנות מוסרית מכוונת אלא זה מנגנון יצירה סטטיסטי של משפטים סבירים.

איש תם: אז כל המערכות אותו דבר? או שיש הבדל ביניהן?

שלמה הנבון: יש הבדלים מעשיים. יש מערכות שיכולות להריץ קוד בסביבה מוגבלת, לנתח קבצים שאתה מעלה, לבצע סטטיסטיקה, ולתת פלטים כמו טבלאות או גרפים. אחרות לא. יש מערכות שעושות שילוב של “חיפוש” במאגרים פתוחים, כלומר שליפה של מקורות חיצוניים ואז ניסוח תשובה על בסיסם, ויש כאלה שמוגבלות למה שנמצא “בזיכרון האימון”. אבל שים לב: גם כשיש חיפוש, עדיין האחריות לאימות נשארת אצלך.

איש תם: ואם אני רוצה שהיא תביא לי נתונים ממאגר מדעי רציני או כתב עת בתשלום, למה שלא תוכל?

שלמה הנבון: כי ברוב המצבים אין לה הרשאות, אין לה גם כניסה אישית לחשבונות שלך, ואין לה מנגנון אמין שמבטיח לך שהיא באמת “קראה” את המאמר המקורי ולא רק ניחשה. גם כשמערכות מתחברות למקורות פתוחים, זה לא הופך אותן לבעלות גישה חוקית או מלאה למאגרים בתשלום. בפועל: אם אתה צריך מאמר, אתה מוריד אותו בערוצים החוקיים, קורא בעצמך, ואז משתמש במערכת כדי לעזור לך לסכם, להשוות, לנסח, אבל לא להמציא או להניח “כאילו ממש קראה”.

איש תם: ומה לגבי חישובים מתקדמים? שמעתי שמערכות מסוימות “מחשבות” ברמה גבוהה.

שלמה הנבון: נכון, אבל בתנאי שאתה מספק את הנתונים ואת ההקשר. למשל: כאשר אתה תעלה טבלת נתונים, תגדיר מהו המשתנה התלוי, מה המשתנים המסבירים, מה השערת האפס, ואיזה מודל אתה רוצה. אז המערכת יכולה לעזור לכתוב קוד, להריץ רגרסיה, לבדוק הנחות, להציע בדיקות רגישות, ולהפיק טיוטת סעיף שיטות. אבל גם אז: אתה חייב לבדוק שהקוד נכון, שהנחות המודל מתקיימות, ושלא נעשתה שגיאה שקטה. כאן נכנסת הדרישה או רוח הדברים של “מחקר בר־שחזור”: כל תוצאה צריכה להיות ניתנת לשחזור על ידי אדם אחר עם אותם נתונים ואותה מתודולוגיה.

איש תם: אז איפה הסכנה הגדולה? אם היא מחשבת את מה שהעליתי, זה נשמע בטוח יחסית.

שלמה הנבון: הסכנה הגדולה אינה בחישוב אלא בהמצאה. במיוחד: המצאת מקורות, המצאת ציטוטים, המצאת מספרים, והמצאת “קונצנזוס מדעי” שלא קיים. יש עבודות שהראו שמודלים כאלה מסוגלים לייצר הפניות שנראות אמיתיות אך אינן קיימות, או שנוצר ערבוב פרטים של מאמרים אמיתיים באופן שגוי וזה מסוכן כי הטקסט נשמע סמכותי.

איש תם: באמת עד כדי כך? היא ממש יכולה להמציא רשימת מקורות?

שלמה הנבון: כן. ולפעמים היא גם תיתן לך “שמות” שנשמעים הגיוניים, כתבי עת נכונים, ושנה שנראית מתאימה, אבל המאמר עצמו לא קיים, או שהוא קיים אך לא אומר את מה שמיוחס לו. לכן כלל ברזל: לעולם אל תתייחס להפניה שמערכת נתנה לך כאילו היא אמת עד שלא מצאת אותה בעצמך במאגר אמין וקראת לפחות תקציר, ורצוי מאוד את המאמר המלא.

איש תם: אז איך בכל זאת אפשר להשתמש בזה בלי להסתבך? אני כן רוצה שזה יעזור לי.

שלמה הנבון: מעולה. נבנה שימוש נכון, כמו עבודה עם מתמחה מוכשר מאוד אבל לא מורשה לחתום על שום דבר. אתה נותן לו משימות, הוא מחזיר טיוטות, ואתה מאמת. אם תרצה, נשתמש במודל שנכנה “רמזור”.

איש תם: רמזור?

שלמה הנבון: ירוק-שימושים בטוחים יחסית:

  1. סיעור מוחות לשאלות מחקר, ניסוח השערות, או יצירת רשימת משתנים אפשריים.
  2. שיפור ניסוח: תקציר, מבוא, מעבר בין פסקאות, בהירות משפטים.
  3. תכנון: בניית מבנה מאמר, תכנון תרשים זרימה של שיטות, רשימת משימות.
  4. סיכום טקסט שאתה מספק: אתה מעלה מאמר, והיא מסכמת, משווה, ומנסחת “מפת טענות”.

צהוב-שימושים שדורשים זהירות גבוהה:

  1. הצעות למקורות: מותר לבקש “כיווני חיפוש”, אבל כל מקור חייב אימות ידני.
  2. ניתוח סטטיסטי: מותר, אבל אתה בודק קוד, הנחות, ותוצאות.
  3. כתיבת סעיפי שיטות: אפשר, אבל אתה מוודא שהם תואמים למה שבאמת עשית! לא “שיטות יפות” על הנייר.

אדום- שימושים אסורים או כמעט תמיד מסוכנים במחקר רציני:

  1. לייצר נתונים ניסויים שלא נאספו.
  2. לייצר “תוצאות” ולהדביק להן פרשנות.
  3. להמציא ציטוטים או מקורות, או להגיש רשימת מקורות שלא נבדקה.
  4. להשתמש במערכת כמקור הראיות המרכזי שלך במקום מאגרי מידע וספרות מקורית.

איש תם: זה נשמע פשוט. אבל במציאות, כשאני כבר בתוך כתיבה, אני נופל בדיוק ב”צהוב” ו”אדום”. אז איך אני לא מחליק?

שלמה הנבון: נבנה לך פרוטוקול קצר, כמו צ’ק־ליסט לפני הגשה. אבל לפני הצ’ק־ליסט יש עיקרון: הפרד תמיד בין “תוכן” לבין “ראיות”. המערכת טובה יחסית בתוכן (ניסוח, ארגון, הסבר). היא חלשה בראיות (מה באמת נכון, מה באמת פורסם, מה באמת הראה אפקט). אתה חייב לוודא שכל משפט “ראייתי” נשען על מקור אמיתי.

איש תם: תן דוגמה.

שלמה הנבון: אם כתבת: “מחקר אקראי כפול סמיות הראה ירידה של 30 אחוז בסיכון” , זה משפט ראייתי. הוא חייב מקור, ובדרך כלל גם התאמה להנחיות דיווח: איך הוגדרה תוצאת הסיכון? מה היה המדד? מה היה גודל המדגם? אם זה ניסוי אקראי, או תצפיתי או אפלו סקירה שיטתית יש ניסוחים מקובלים שדורשים ממך לדווח דברים מסוימים כדי למנוע “ניסוח יפה” במקום שקיפות.

עליך להזהר כי המערכת יכולה לעזור לך “למלא” טקסט שיישמע כמו הדיווח הדרוש אבל רק אתה יודע אם באמת עמדת בדרישות.

איש תם: כלומר היא יכולה לכתוב שיטות שלא עשיתי?

שלמה הנבון: בדיוק. והיא לא “משקרת” במכוון היא פשוט מייצרת טקסט סביר. לכן אתה צריך לשאול שאלה קבועה: “האם זה מתאר פעולה שביצעתי בפועל, או שזה ניסוח יפה של פעולה שלא נעשתה?”

איש תם: ומה לגבי כתיבה של סקירה ספרותית? זה נראה כמו שימוש טבעי.

שלמה הנבון: זה שימוש מצוין רק אם אתה מחזיק את ההגה. המערכת יכולה לעזור בשלושה שלבים:

  1. להציע מילות מפתח ותת־נושאים.
  2. לסייע בסיכום מאמרים שאתה מספק. [אבל עליך לבדוק את הסיכומים ולראות שאכן משקפים את המאמרים]
  3. לעזור לארגן טיעון: מה ידוע, מה לא ידוע, איפה הסתירות.

אבל “איתור הספרות” עצמו: סינון, הכללה/הדרה, בדיקת איכות, והפקת מסקנות, זה תהליך שיטתי שדורש אותך. אם אתה באמת עושה סקירה שיטתית, זה מחייב תרשים זרימה, קריטריונים, ותיעוד מלא. המערכת יכולה לעזור לנסח את הקריטריונים, אבל אתה חייב להיות כנה לגבי מה נעשה בפועל.

איש תם: אתה נשמע כמעט חשדן כלפי עצם הרעיון של עזרה ממודל שפה.

שלמה הנבון: לא חשדן איש תם, מציאותי. תזכור: אפילו בלי בינה מלאכותית, הרבה ממצאים מדעיים לא שורדים שחזור, ולפעמים בגלל הטיות פרסום, גודל מדגם קטן,”רעש סטטיסטי” ועוד. כשנוסיף כלי שיודע לכתוב יפה, הסיכון הוא שהיופי יכסה על החולשה. מצד שני, אם משתמשים נכון, הוא יכול דווקא לשפר שקיפות, כי הוא עוזר לך לארגן את העבודה ולבדוק עקביות.

איש תם: איך הוא יכול לשפר שקיפות?

שלמה הנבון: לדוגמה: אתה יכול לבקש ממנו להכין “טבלת עקביות” (לא כטבלה מוגשת, אלא כרשימת בדיקה): האם מספר המשתתפים זהה במבוא, בשיטות, ובתוצאות? האם יחידות המידה עקביות? האם כל קיצור מוגדר? האם כל טענה בתוצאות מגובה במספר? הוא טוב בלתפוס סתירות פנימיות, אבל לא טוב בלדעת אם המספרים אמיתיים.

איש תם: ומה לגבי “הבאת מקורות” בלי להמציא? יש דרך להפוך את זה לבטוח יותר?

שלמה הנבון: כן: אל תבקש “תן לי 20 מאמרים על נושא X” ותסמוך על הרשימה. במקום זה:

  1. תבקש ממנו ניסוח אסטרטגיית חיפוש: מושגים, מילות מפתח, שמות של מדדי תוצאה, שמות של תת־אוכלוסיות.
  2. תיכנס אתה למאגרים אמינים למשל PubMed, Web of Science, Scopus לפי הגישה הנחוצה ותוציא רשימת תוצאות אמיתית.
  3. תזין את הרשימה האמיתית (כותרות + תקצירים) ותבקש ממנו למיין לפי קריטריונים שאתה מגדיר.
  4. ואז אתה בודק את הסיווג.

זה הופך את המערכת מממציאה למארגנת. זה שינוי תפקיד קריטי.

איש תם: ומה עם מודלים שעושים “שליפה” ממקורות חיצוניים?

שלמה הנבון: זה הכיוון של Retrieval-Augmented Generation: מודל שמייצר תשובה תוך הסתמכות על קטעי טקסט שנשלפו ממאגר חיצוני . זה בהחלט יכול להפחית "הזיות" אם המאגר איכותי והשליפה טובה. אבל עדיין יש שתי בעיות:

  1. שליפה שגויה: הוא יכול להביא קטע לא רלוונטי ולהסיק ממנו.
  2. פרשנות שגויה: גם אם הקטע נכון, הוא יכול לסכם אותו לא נכון.
    לכן גם כאן הקריאה האנושית היא השופט האחרון.

איש תם: אז לא משנה כמה מתקדמים נהיה, תמיד צריך בן אדם בסוף?

שלמה הנבון: במחקר, כן. לא רק בגלל ה“אמת”, אלא גם בגלל אחריות. כתבי עת ומערכות אתיקה מדגישים שהאחריות על תוכן המאמר ועל יושרה מדעית היא של בני אדם. יש הצהרות מפורשות על כך שמערכת בינה מלאכותית לא יכולה להיות “מחבר”, ושצריך גילוי נאות לגבי שימוש בכלים כאלה.

איש תם: גילוי נאות, מה בדיוק צריך לגלות?

שלמה הנבון: תלוי בכתב העת. אבל באופן כללי: אם השתמשת בכלי ליצירת טקסט, לעריכת שפה, לסיכום, ליצירת קוד, או לניתוח, תכתוב זאת. תציין מה היה תפקיד הכלי ומה היה תפקידך. והכי חשוב: תבהיר שלא השתמשת בו לייצור נתונים, תוצאות, או מקורות שלא נבדקו. יש קווים מנחים שעוסקים בדיוק בזה, בשקיפות, באחריות, ובהימנעות מהצגה מטעה של תהליך העבודה.

איש תם: ולמה זה חשוב? אם התוכן טוב, למי אכפת איך כתבתי?

שלמה הנבון: כי תהליך הכתיבה הוא חלק מהשאלה האם אפשר לסמוך על המאמר. אם כלי השתתף בכתיבה, יש שאלות על פרטיות הנתונים, על הסיכון להמצאת עובדות, ועל הבעלות האינטלקטואלית. מעבר לזה, חלק מהכתבי עת חוששים מהצפה של טקסטים “מלוטשים” שלא עברו בקרה מדעית אמיתית. לכן הם דורשים שקיפות.

איש תם: דיברת על פרטיות. מה הבעיה שם?

שלמה הנבון: כשאתה מעלה טיוטת מאמר שלא פורסם, או נתונים רגישים, או מידע על מטופלים, אפילו אם הוא אנונימי חלקית, אתה עלול להפר מדיניות מוסדית, הסכמי סודיות, או כללי אתיקה. בנוסף, יש מדיניות של מו”לים לגבי שימוש במערכות כאלה בשיפוט עמיתים: לפעמים אסור להעלות כתב יד חסוי לכלי חיצוני בגלל סודיות. לכן כלל בטיחות: אל תעלה שום חומר חסוי או מזוהה אלא אם אתה בטוח שמדיניות הארגון והכלי מאפשרות זאת, וגם אז במינימום הנחוץ. הנושא הזה מופיע במדיניות של הוצאות לאור וארגוני עורכים.

איש תם: טוב. עכשיו בוא נרד לפרקטיקה: אני עומד להגיש מאמר. מה בדיוק אני בודק לפני ההגשה?

שלמה הנבון: הנה רשימת בדיקה “קשיחה”:

  1. מספרים ותוצאות: כל מספר בתוצאות בדוק שהוא יצא מפלט אמיתי (קובץ תוצאות, תיעוד סטטיסטי), ושאפשר לשחזר אותו. אם אין דרך לשחזר אל תכתוב אותו.
  2. עקביות: אותו N בכל מקום, אותן יחידות, אותם שמות משתנים.
  3. שיטות: כל פעולה מתוארת חייבת להיות פעולה שביצעת. אם זה ניסוי אקראי או תצפיתי או סקירה בדוק שעמדת בקריטריונים המדעיים הדרושים לכל אחד מאלו.
  4. מקורות: כל הפניה דורשת בדיקה ידנית. הכותרת קיימת? המחברים קיימים? השנה? כתב העת? והאם המאמר באמת אומר את הטענה ששייכת לו? במיוחד אם המקור הגיע מהמערכת.
  5. ציטוטים: אם הכנסת ציטוט מילולי, תבדוק מול המקור מילה במילה.
  6. דיון: האם אתה עושה “קפיצה” מעבר למה שהנתונים מאפשרים? כאן גם בני אדם טועים, והמערכת יכולה להחמיר את זה בניסוחים נחרצים מדי.
  7. גילוי נאות: כתוב בבירור איך השתמשת בכלי, ומה לא נעשה בעזרתו .

איש תם: זה הרבה. אבל תן לי כלל אחד שאני לא אשכח, כמו שאמרת קודם.

שלמה הנבון: הכלל האחד: “המערכת לעולם אינה מקור הנתונים והראיות”. היא יכולה להיות עוזר כתיבה ואפילו עוזר חשיבה, אבל היא לא הספרייה שלך, לא המעבדה שלך, ולא ועדת האתיקה שלך.

איש תם: ומה אם אני רוצה שהיא תכתוב לי “סקירה ספרותית” על נושא חדש, אבל אני עדיין לא יודע מה לשאול?

שלמה הנבון: אז תשתמש בה כמו במורה דרך:

  1. תן לה לתאר את השדה במונחים כלליים.
  2. תבקש רשימת “תתי־שאלות” וביקורות אפשריות.
  3. תבקש מילות מפתח חלופיות, שמות של תיאוריות, שמות של מדדים, ושמות של אוכלוסיות מחקר.
    ואז אתה עצמך ! יוצא לציד ספרות אמיתי.

בשלב הבא, אתה יכול להביא לה תקצירים אמיתיים ולבקש ממנה לסדר אותם לפי: סוג מחקר, איכות מתודולוגית, גודל מדגם, עקביות ממצאים, והטיות אפשריות. זה שימוש חכם: אתה מזין עובדות, והיא מסדרת.

איש תם: ומה לגבי “מסקנה” או “קונצנזוס”? היא אוהבת להגיד “המחקרים מראים ש…”.

שלמה הנבון: תעיף מהראש את המילה “מראים” עד שיש לך ביד כמה מקורות אמיתיים וקראת אותם. המערכת תשתמש בביטויים כאלה כי זה סגנון רטורי נפוץ. אבל במחקר אנחנו עובדים אחרת: “במחקרי תצפית נמצא קשר ל…”, “במטא־אנליזה נמצא אפקט…”, “בניסוי אקראי נמצא שינוי במדד X … זו שפה שמכבדת את סוגי הראיות. לכן גם כשאתה משתמש במערכת לעזרה בניסוח, אתה צריך להביא אותה לכתוב בשפה שמבחינה בין רמות הראיות.

איש תם: אתה בעצם אומר שהיא טובה בסגנון, ואני חייב להיות השוטר של האמת.

שלמה הנבון: בדיוק. ובוא נוסיף עוד שכבת הגנה: הפרד בין “טיוטת ניסוח” לבין “מסמך סופי”. כל מה שיוצא מהמערכת הוא טיוטה עד שעבר אימות. זה כלל עבודה, לא רק אזהרה.

איש תם: ומה לגבי השאלה אם המערכת “יודעת שהיא טועה”? לפעמים היא מוסיפה הסתייגויות, לפעמים היא בטוחה.

שלמה הנבון: יש מחקר שמראה שלפעמים יש בתוך המודל “אותות” שמרמזים על אמת או שקר, אבל דבר זה לא יציב בין משימות, ולא מספיק כדי להפקיד בידיו החלטה . לכן אל תשתמש בביטחון הטון כאינדיקטור לאמת. להפך: לפעמים דווקא הטון החלקלק והבטוח לכאורה הוא סימן אדום.

איש תם: ואם בעתיד יהיו מערכות שכן יתחברו למאגרים מוגנים וידעו להביא מאמרים אמיתיים?

שלמה הנבון: זה בהחלט כיוון שמתפתח: עוזרי מחקר שמתחברים למאגרים מורשים, מנהלים ציטוטים, ומביאים קטעים עם הפניות. אבל גם אז נשארת בעיה: “הבנה” אינה “אחריות”. גם אם הם יביאו מקור, אתה תצטרך לבדוק שהפרשנות נכונה, שהמקור מתאים לטענה, ושלא חלה טעות בשליפה. מחקר אמיתי לא מסתיים בשליפה; הוא מתחיל משם.

איש תם: אז בסוף, אתה אופטימי או פסימי?

שלמה הנבון: אופטימי למי שעובד נכון, פסימי למי שמתפתה לקיצורי דרך. מודל שפה גדול יכול להפוך אותך לכותב טוב יותר, לסוקר מסודר יותר, ולחוקר עם יותר רוחב, אם אתה שומר על משמעת מתודולוגית ! אבל הוא גם יכול להפוך אותך ל”מפיץ טקסטים יפים” אם אתה מוותר על אימות. והמדע לא צריך עוד טקסטים יפים; הוא צריך אמת שניתן לבדוק.

איש תם: אז מה תאמר לי במשפט אחד לסיום?

שלמה הנבון: השתמש במערכת כדי לחשוב ולכתוב, אבל השתמש במקורות, בנתונים, ובשיטות כדי לדעת.

איש תם: תודה לך, שלמה , ובהומור אוסיף כי שלמה המקראי היה החכם באדם, והחכמה במקרה שלנו היא לא לדעת הכול, אלא לדעת מה חייבים לבדוק.

שלמה הנבון: בדיוק נמרץ איש תם.

וכעת משתם הדו-שיח, נביא כאן לאלו מכם המעדיפים זאת, את הנושא ככתבה מסודרת עם מראי-מקום [רפרנסים].

כותרת: מגבלות הבינה המלאכותית בסיוע למחקר מדעי: דיוק, רפרנסים, ואתיקה של כתיבה אקדמית בעידן מודלים גדולים לשפה

מבוא
בשנים האחרונות הפכו מודלים גדולים לשפה לכלים נפוצים בכתיבה, סיכום, תרגום וארגון רעיונות. עם זאת, שימוש בהם במחקר מדעי יוצר "מלכודות שקטות": טקסט שנשמע סמכותי אך אינו מבוסס, רפרנסים מומצאים או שגויים, וערבוב לא שקוף בין תרומה אנושית לתרומת כלי אוטומטי. מטרת כתבה זו היא להציג באופן בהיר ומבוסס את מגבלות הכלים, את הסיכונים המרכזיים בשימוש בהם למחקר וכתיבה אקדמית, ואת כללי הזהירות והדיווח הנדרשים כיום לפי הנחיות גופי עריכה ופרסום מובילים.

מה עושה מודל שפה, ומה הוא לא עושה
מודלים גדולים לשפה הם מערכות שמייצרות טקסט על בסיס דפוסים סטטיסטיים שנלמדו ממאגרי טקסט גדולים, תוך ניבוי ההמשך הסביר ביותר של רצף מילים בהינתן הקשר. הם אינם “יודעים” במובן אנושי, אינם מחויבים לאמת, ואינם מבצעים אימות עובדות באופן מובנה כברירת מחדל. לכן, גם כאשר תשובה נשמעת עקבית, רהוטה ומשכנעת, אין בכך ראיה לנכונותה (Brown et al., 2020; Vaswani et al., 2017).
המשמעות המעשית: המודל מצטיין בהפקת ניסוחים, מבנים, סיכומים ווריאציות לשוניות, אך הוא אינו תחליף לתהליך מדעי הכולל איסוף נתונים, בדיקת מקורות, ביקורת עמיתים ושחזור תוצאות.

"הזיות” ואמינות: מדוע נוצרת עובדה שנשמעת אמיתית אך אינה כזו
תופעת ה"הזיות" במודלים גדולים לשפה מתארת יצירת תוכן שאינו נכון עובדתית, אך מוצג באופן בטוח ומסודר. זה עלול לקרות במיוחד בנושאים שבהם קיימים “חורים” בידע, באזורים של מומחיות נישתית, או כאשר המשתמש מבקש ציטוטים, נתונים מספריים, שמות מאמרים ורפרנסים ספציפיים. סקירות מחקריות מציעות טקסונומיות שונות להזיות, כולל הזיות “פנימיות” שבהן הטקסט סותר את ההקשר הנתון, והזיות “חיצוניות” שבהן נטענות עובדות שאינן נתמכות במציאות (Huang et al., 2023).
מחקר עדכני מראה גם תופעה עדינה יותר: המודל עשוי “לקודד” מידע נכון ברמה פנימית אך להוציא בפועל תשובה שגויה, כלומר קיימת אי־הלימה בין מה שמיוצג ברשת לבין מה שנוצר כפלט (Orgad et al., 2025). זה מחזק את המסקנה שאין להסתמך על תחושת הדיוק של הטקסט עצמו.

רפרנסים, ציטוטים ופרטי ביבליוגרפיה: נקודת הכשל המסוכנת ביותר
אחד הסיכונים החמורים בכתיבה אקדמית בסיוע מודל שפה הוא יצירת רפרנסים מומצאים או רפרנסים אמיתיים עם פרטים שגויים. מחקרים שבדקו תוכן רפואי שנוצר על ידי מערכות שפה מצאו שיעורים גבוהים של רפרנסים מזויפים או שגויים (Bhattacharyya et al., 2023; Gravel et al., 2023; Walters & Wilder, 2023).
בעיה זו אינה מוגבלת לרפואה: גם במחקרי הערכה של דיוק ציטוטים, נמצא שהמודל עלול לספק פריט ביבליוגרפי שנשמע אמיתי, כולל כתב עת, כרך, עמודים ומספר מזהה, אך בפועל אינו קיים, או אינו תואם לטענה שבגוף הטקסט (Byun et al., 2024).
מכאן נובע כלל עבודה פשוט: כל רפרנס שמופיע במאמר חייב להיבדק ידנית מול מקור אמיתי, כולל התאמה בין: כותרת, מחברים, שנה, כתב עת/ספר, כרך, גיליון, עמודים, מספר מזהה, ותוכן המאמר ביחס לטענה המוצמדת אליו.

גישה למאגרים, חיפוש “חי”, והטעות הנפוצה לגבי “בדיקת מקורות”
ברירת המחדל של מודל שפה היא עבודה ללא גישה ישירה למאגרי מידע אקדמיים בזמן אמת וללא אימות מקורות. לעיתים קיימות פלטפורמות שמוסיפות יכולות חיפוש או חיבור למאגרים, אך גם אז:
א. איכות התוצאה תלויה באיכות מקורות החיפוש ובאופן הצגת התוצאה למשתמש.
ב. עדיין נדרשת בדיקה אנושית שהמקור אכן קיים, שהציטוט מדויק, ושאין הוצאה מהקשר.
לכן, גם כאשר נעשה שימוש במנגנוני שילוב-אחזור, כלומר יצירת תשובה על בסיס מסמכים שנשלפו ממאגר (Retrieval-Augmented Generation), אין בכך תחליף לביקורת מדעית. מנגנון זה מפחית הזיות במקרים רבים, אך אינו מבטל אותן לגמרי ואינו מבטיח ציטוט נכון או פרשנות נכונה (Lewis et al., 2020).

המחקר המדעי הוא יותר מטקסט: והוא דורש שחזור, מתודולוגיה, וסטנדרטים של דיווח.
למודל שפה חולשה עמוקה של “כתיבה יפה” שיכולה להסתיר בעיות יסוד במחקר: דגימה לא נכונה, מדדים לא תקפים, הטיות, וניתוח סטטיסטי בעייתי. כבר לפני עידן הבינה המלאכותית הודגשה בעיית השחזור ומגבלות האמינות של ממצאים בספרות המדעית (Ioannidis, 2005; Peng, 2011).

לכן, התועלת האמיתית של מודל שפה במחקר היא בעיקר בעבודה טכנית־לשונית: ניסוח, תמצות, תכנון מבנה, או יצירת טיוטות. אך את לב המחקר חייבים “לעגן” בסטנדרטים של דיווח ושקיפות. דוגמאות מרכזיות:
א. ניסויים אקראיים: CONSORT (Schulz et al., 2010).
ב. מחקר תצפיתי: STROBE (von Elm et al., 2007).
ג. סקירות שיטתיות: PRISMA (Page et al., 2021).
סטנדרטים אלה מכריחים פירוט שמקטין סיכוי לטעויות מבניות, ומכריח את הכותב להציג מידע שאי אפשר “להמציא” בלי להיחשף.

אתיקה, אחריות, ושאלת המחבר: מה דורשים המו״לים והגופים המנחים?
בכתיבה אקדמית קיימת אחריות אנושית מלאה לתוכן. גופים ומו״לים מרכזיים קובעים שמערכת בינה מלאכותית אינה יכולה להיות מחבר, משום שאינה נושאת באחריות, אינה יכולה לחתום על הצהרות ניגוד עניינים, ואינה יכולה לענות לביקורת עמיתים או להחזיק בזכויות וחובות מחבר. קו זה מופיע בהנחיות ובמדיניות של כתבי עת ומו״לים מובילים, וכן בהמלצות גופי עריכה רפואיים ובינלאומיים (Flanagin et al., 2023; International Committee of Medical Journal Editors, 2023; Zielinski et al., 2023).
בנוסף, קיימת דרישה גוברת לשקיפות: אם נעשה שימוש בכלי בינה מלאכותית לכתיבה, עריכה, סיכום, תרגום או יצירת רכיבים, יש לדווח על כך באופן ברור לפי מדיניות כתב העת, ולעיתים לציין את ההיקף המדויק של השימוש (Elsevier, 2025; Springer Nature, n.d.; Flanagin et al., 2024).
גישה זהירה נוספת בספרות האתית מתארת מודלים גדולים לשפה כ”תוכים סטוכסטיים”: מערכות שמחקות שפה באופן מרשים אך ללא הבנה מוסרית או הקשרית, ולכן עלולות לשכפל הטיות, לייצר סמכות מדומה, ולתת תחושת “ידע” שאינה מוצדקת (Bender et al., 2021).

סיכונים אופייניים במחקר רפואי וקליני
בתחומי הרפואה, הפסיכיאטריה והמדעים הביולוגיים, הסיכון גבוה במיוחד משום שהטקסט עשוי להשפיע על החלטות קליניות, פרשנות נתונים, או המלצות טיפול. דוגמאות לסיכונים:
א. פירוש לא נכון של מאמר קליני או הנחיות טיפול, במיוחד אם המודל “משלים” פערים.
ב. רפרנסים שגויים שמובילים להסתמכות על ספרות לא קיימת.
ג. ניסוח שכנועי שמקשה על קורא לזהות היכן נגמרות העובדות והיכן מתחילות ההשערות.
המחקרים שהדגימו רפרנסים מומצאים בטקסט רפואי ממחישים שהבעיה אינה תאורטית אלא אמפירית (Bhattacharyya et al., 2023; Gravel et al., 2023).

שימוש נכון: מה מותר, מה מועיל, ומה מחייב זהירות יתרה
שימושים מועילים יחסית (בתנאי שבדיקה אנושית נעשית):
א. סידור טיוטה, הצעת כותרות ותתי-כותרות, ויצירת זרימה רטורית.
ב. תמצות מאמר שהמשתמש מספק במלואו, תוך בדיקה מול המקור.
ג. הצעת ניסוחים חלופיים, תיקוני דקדוק, ושיפור בהירות.
ד. הכנת רשימת שאלות לביקורת: שאלות על שיטות, הטיות, מדדים, ניתוחים.

שימושים שמחייבים זהירות מיוחדת או הימנעות:
א. יצירת סקירת ספרות “מאפס” עם רפרנסים בלי אימות.
ב. ייצור נתונים מספריים, שיעורי שכיחות, או תוצאות של מחקרים בלי הפניה מקורית שנבדקה.
ג. תיאור מחקר כ”מוכח” כאשר בפועל מדובר בהשערה או בהכללה.
ד. ייחוס טענות למאמרים בלי לקרוא אותם בפועל.

פרוטוקול עבודה מומלץ: כיצד לעבוד כדי למנוע שגיאות
כדי להפוך את הכלי לעוזר ולא למקור שגיאות, מומלץ ליישם פרוטוקול עבודה עקבי:

שלב א: הגדרת משימה
להגדיר מראש מה המודל עושה: ניסוח, ארגון, או הצעת מבנה. לא לבקש “הבא לי מקורות” בלי מנגנון אימות.

שלב ב: עבודה ממוקדת על מקורות קיימים
להזין למערכת טקסטים שנבחרו מראש, או רשימת מאמרים אמיתיים, ולבקש סיכום/מיפוי טענות, ואז לבדוק מול המקור.

שלב ג: בדיקת רפרנסים בשיטת “אחד לאחד”
כל פריט ברשימת המקורות: לוודא קיום, פרטים ביבליוגרפיים, והתאמה לטענה. רפרנס שלא אומת, לא נכנס למאמר.

שלב ד: הפרדה ברורה בין עובדות לפרשנות
בכל מקום שבו מוצגת פרשנות, לסמן אותה ככזו ולתמוך במקור מתאים. כאשר אין מקור, להציג כהשערה ולא כעובדה.

שלב ה: התאמה לסטנדרטים של דיווח
לפי סוג המחקר: CONSORT, STROBE, PRISMA וכדומה, כדי ליצור שקיפות שמקטינה מרחב ל"החלקה" (Schulz et al., 2010; von Elm et al., 2007; Page et al., 2021).

שלב ו: גילוי נאות בהתאם למדיניות היעד
להוסיף הצהרת שימוש בבינה מלאכותית במיקום ובפורמט הנדרשים על ידי כתב העת או המו״ל (Flanagin et al., 2024; Elsevier, 2025; Springer Nature, n.d.; International Committee of Medical Journal Editors, 2023; Zielinski et al., 2023).

סיכום
מודלים גדולים לשפה הם כלי חזק לכתיבה, עריכה, תכנון מבנה וסיכום, אך הם אינם מנגנון מובנה לאימות אמת. חולשתם הגדולה ביותר במרחב האקדמי היא יצירת סמכות לשונית מדומה, ובעיקר כשלי רפרנסים: פריטים מומצאים או שגויים ברמת הפרטים. מחקרים אמפיריים מצביעים על כך שהסיכון אינו בלתי שכיח (Bhattacharyya et al., 2023; Gravel et al., 2023; Walters & Wilder, 2023; Byun et al., 2024).
לכן, שימוש אחראי בבינה מלאכותית במחקר מדעי מחייב שלושה עקרונות: אימות אנושי של עובדות ומקורות, שקיפות מלאה בדיווח על שימוש בכלים, והיצמדות לסטנדרטים של דיווח מדעי. כאשר עקרונות אלו נשמרים, הכלי יכול להאיץ עבודת כתיבה ולשפר בהירות, בלי לשלם את המחיר של טעויות שקטות.

רשימת מקורות

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610–623). Association for Computing Machinery. doi:10.1145/3442188.3445922

Bhattacharyya, M., Miller, V. M., Bhattacharyya, D., & Miller, L. E. (2023). High rates of fabricated and inaccurate references in ChatGPT-generated medical content. Cureus, 15(5), e39238. doi:10.7759/cureus.39238

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

Byun, C., Vasicek, P., & Seppi, K. (2024). This reference does not exist: An exploration of LLM citation accuracy and relevance. In Proceedings of the Third Workshop on Bridging Human–Computer Interaction and Natural Language Processing (pp. 28–39). Association for Computational Linguistics. doi:10.18653/v1/2024.hcinlp-1.3

Elsevier. (2025, October). The use of generative AI and AI-assisted technologies in writing for Elsevier. Elsevier policy.

Flanagin, A., Bibbins-Domingo, K., Berkwits, M., & Christiansen, S. L. (2023). Nonhuman “Authors” and implications for the integrity of scientific publication and medical knowledge. JAMA, 329(8), 637–639. doi:10.1001/jama.2023.1344

Flanagin, A., Pirracchio, R., Khera, R., Berkwits, M., Hswen, Y., & Bibbins-Domingo, K. (2024). Reporting use of AI in research and scholarly publication—JAMA Network guidance. JAMA, 331(13), 1096–1098. doi:10.1001/jama.2024.3471

Gravel, J., D’Amours-Gravel, M., & Osmanlliu, E. (2023). Learning to fake it: Limited responses and fabricated references provided by ChatGPT for medical questions. Mayo Clinic Proceedings: Digital Health, 1(3), 226–234. doi:10.1016/j.mcpdig.2023.05.004

Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., Chen, Q., Peng, W., Feng, X., Qin, B., & Liu, T. (2023). A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. arXiv.

International Committee of Medical Journal Editors. (2023). Recommendations for the conduct, reporting, editing, and publication of scholarly work in medical journals (Updated May 2023). ICMJE.

Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124. doi:10.1371/journal.pmed.0020124

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.-t., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems, 33, 9459–9474.

Orgad, H., Toker, M., Gekhman, Z., Reichart, R., Szpektor, I., Kotek, H., & Belinkov, Y. (2025). LLMs know more than they show: On the intrinsic representation of LLM hallucinations. In Proceedings of the International Conference on Learning Representations.

Page, M. J., McKenzie, J. E., Bossuyt, P. M., Boutron, I., Hoffmann, T. C., Mulrow, C. D., Shamseer, L., Tetzlaff, J. M., Akl, E. A., Brennan, S. E., Chou, R., Glanville, J., Grimshaw, J. M., Hróbjartsson, A., Lalu, M. M., Li, T., Loder, E. W., Mayo-Wilson, E., McDonald, S., … Moher, D. (2021). The PRISMA 2020 statement: An updated guideline for reporting systematic reviews. BMJ, 372, n71. doi:10.1136/bmj.n71

Peng, R. D. (2011). Reproducible research in computational science. Science, 334(6060), 1226–1227. doi:10.1126/science.1213847

Schulz, K. F., Altman, D. G., & Moher, D. (2010). CONSORT 2010 statement: Updated guidelines for reporting parallel group randomised trials. BMJ, 340, c332. doi:10.1136/bmj.c332

Springer Nature. (n.d.). Artificial intelligence (AI): Editorial policies. Springer Nature policy.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems, 30, 5998–6008.

von Elm, E., Altman, D. G., Egger, M., Pocock, S. J., Gøtzsche, P. C., & Vandenbroucke, J. P. (2007). The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: Guidelines for reporting observational studies. The Lancet, 370(9596), 1453–1457. doi:10.1016/S0140-6736(07)61602-X

Walters, W. H., & Wilder, E. I. (2023). Fabrication and errors in the bibliographic citations generated by ChatGPT. Scientific Reports, 13(1), 14045. doi:10.1038/s41598-023-41032-5

Zielinski, C., Winker, M. A., Aggarwal, R., Ferris, L. E., Heinemann, M., Lapeña, J. F., Pai, S. A., Ing, E., Citrome, L., Alam, M., Voight, M., & Habibzadeh, F. (2023). Chatbots, generative AI, and scholarly manuscripts: WAME recommendations on chatbots and generative artificial intelligence in relation to scholarly publications. Colombia Médica (Cali), 54(3), e1015868.

לרשום תגובה