יותר

כיצד לחסל אזורי חפיפה של מצולעים ב- QGIS?


האם יש דרך להסיר חפיפות מצולעים בתוך אותה שכבה באמצעות QGIS, רצוי להסיר את שטח החפיפה של המצולע הגדול ביותר (בעל המשטח הגדול ביותר)?

כל המצולעים שלי נמצאים באותה שכבה, ואני רוצה לבצע פעולה זו על כל השכבה בבת אחת ולא בעריכה ידנית.


אתה יכול להשתמשהסר מצולעי רסיסיםכלי לחיסול המצולעים הקטנים, כפי שניתן לראות להלן:

יש לך שתי אפשרויות לחסל מצולעים:

  1. שטח: חיסול מצולעים בהתבסס על שטח שבו המצולק הקטן יותר יוסר אם הם נמצאים באזור מצולעים גדולים
  2. גבול משותף: אם יש גבול משותף בין שני מצולעים, הם יבוטלו.

במקרה שלך, מכיוון שאתה צריך לחסל את המצולעים הקטנים יותר, אני חושב שאפשרות 1 היא הטובה ביותר עבורך.

אתה יכול למצוא כלי מצולע רסיסים מבטלוקטור -> כלי עיבוד גיאוגרפי -> ביטול מצולעי רסיסים


אתה יכול לעשות את זה עם וקטור -> כלים לעיבוד גיאוגרפי -> הבדל של התפריט מרץ.

שני טופסי צורה שרירותיים חופפים ליד אזור אירופה:

חלון כלי ההבדל שבו שכבת וקטור הקלט מצולע גדול ושכבת ההבדל היא מצולע קטן.

מצולע ההבדל המתקבל:


אינך יכול לבחור איזה מצולע יקבל את החלק החפיפה לפי גודל, אך מלבד זאת, זה אמור לעשות את מה שאתה מחפש: / a / 381790/107424


תגובה התנהגותית לטריפת עופות מדומה משתנה עם קו רוחב ועוצמת הטריפה של אוכלוסיות טבעיות

בדרך כלל צפויה לעלות בעוצמת האינטראקציות האקולוגיות בקווי רוחב נמוכים יותר, דבר המצביע על פוטנציאל לעיצוב התנהגות טרף בקנה מידה מרחבי רחב. עם זאת, יש הבנה מוגבלת יחסית כיצד התנהגות בעלי חיים משתנה על פני שיפועים סביבתיים עיקריים עבור רוב הקבוצות הטקסונומיות. במחקר זה חקרתי תגובה התנהגותית של דג חי. גמבוסיה הולברוקי, לטורף עופות מדומה. מקורם של דגים הוא 17 אוכלוסיות המפוזרות ברוחב 15 °. על פני מרחב רוחב זה, עושר הציפורים הבדיוניות השתנה באופן משמעותי. בהתאם ללחץ הטריפה המשוער, תגובות האנטי-פרדיטור היו שכיחות יותר באזורים עם לחץ טרף מוסכם גדול יותר. עושר הטורפים וקו הרוחב השתנו באופן משמעותי בכל אזור המחקר, מה שמעיד על צורך לפרק עוד יותר את גורמי ההתפתחות ההתנהגותית, כולל משתנים שאינם מודדים בקורלציה. עם זאת, מחקר זה מדגים את חשיבות השונות הסביבתית לעיצוב דפוסי התנהגות בעלי חיים בקנה מידה מרחבי רחב (2000+ ק"מ), אשר עשוי להיות חשוב להבנת מגוון תהליכים אקולוגיים כגון העברת מחלות ודינמיקה של פלישה.

זו תצוגה מקדימה של תוכן מנוי, גישה דרך המוסד שלך.


2.1 GSFLOW

GSFLOW מדמה משטח מבוזר מרחבי לזרימת מים תת קרקעיים בקו פרשת מים באמצעות קודי דגם משונים מ- PRMS ו- MODFLOW. הוא מיועד לסימולציות של קו פרשת מים בשטחים של כמה קמ"ר עד כמה אלפי קמ"ר (Markstrom et al., 2008). למרות ש- GSFLOW יכול לרוץ במצבים המקבילים לדגם ה- PRMS-IV העצמאי ולדגם ה- MODFLOW העצמאי, רק הגרסה "המשולבת" מתוארת כאן. תהליכים של קו פרשת מים קרוב לפני השטח באזור הקרקע הרדוד, כולל התפשטות, הסתננות, נגר וזרם אינטר, מיוצגים על ידי תת-הרכיב PRMS של GSFLOW. זרימת מי תהום מתחת ל"אזור הקרקע ", כולל תנועת מי קרקע אנכית באזור הבלתי רווי העמוק יותר וזרימה רוויה דרך שכבות אקוויפר אופקיות, מיוצגת על ידי תת-הרכיב MODFLOW. זרם זרם והחלפה בין נחלים ומערכות מי תהום בסיסיות מיוצגים גם על ידי תת-הרכיב MODFLOW. אנו מתארים כאן את התכונות העיקריות של GSFLOW במטרה להדריך משתמשים חדשים ביישומה ופירוש תוצאותיה Markstrom et al. (2008) מתעדים את הפרטים המלאים של המודל.

איור 1המאפיינים העיקריים של הגיאומטריה GSFLOW – GRASS. (א) כל קטע הוא חוליה אחת ברשת. בכל צומת, שני קטעי יובלים משתלבים לזרום לקטע יחיד. כל אחד ממוספר. הם לא צריכים להיות בסדר מסוים כלשהו, ​​כפי שצוין, אך נדרשת ערכת מספור שהולכת וגוברת במורד הזרם לצורך זרימה מעודכנת לכל הקטעים שתחושב במהלך אותה איטרציה. (ב) הזרימה בכל אחד מאנשי ה- HRU של בסיס המשנה מנותבת ישירות לפלח זרם מתאים. החץ בפינה השמאלית העליונה מציין כי זרימה מחוץ לצומת היובלים הייצוגית עשויה להיות גם חלק מרשת הניקוז. הגישה הטופולוגית שלנו להגדרת HRU מאפשרת למנות HRU זהה לפלחי הזרם שהם סוגרים. הקוד שלנו כתוב באופן שהתפתחויות עתידיות יוכלו להרפות את הסימטריה הזו. (ג) MODFLOW פועלת ברשת שעומדת בבסיס רשת הזרמים המבוססת על PRMS, ו- HRU לכל תא יש מזהה ייחודי שמספרו עוקב ברצף. (ד) "מאגרי הכבידה" מוגדרים על ידי צומת ה- PRMS HRU ורשת ה- MODFLOW. "מגיע" מוגדר כקטע של כל קטע זרם PRMS שנמצא בתוך תא רשת MODFLOW יחיד וממוספרים ברצף במורד הזרם כפי שמוצג.

2.1.1 דיסקרטיות לתחום

GSFLOW נוקט בגישה של דיסקרטיזציה מרחבית היברידית (איור 1) כדי לבסס את יחידות החישוב שלה. פלחי נחלים הם קישורים ברשת נהר המשמשים הן בתת-רכיבי PRMS והן ב- MODFLOW של GSFLOW (איור 1 א). באופן אופקי, רכיב המשנה PRMS משתמש ביחידות תגובה הידרולוגיות (HRU) בכל צורה שהיא כיחידה הבסיסית שלה (איור 1b). אלה משמשים לחישובים של אזור הקרקע העליון וחלק המשטח שאינו מכוסה על ידי רשת הנחלים. רכיב המשנה MODFLOW משתמש בתאי רשת מלבניים לתחתית העמוקה יותר (איור 1 ג) וכדי להבחין עוד יותר ברשת הזרמים עד לאזורים (איור 1 ד). הקמה מגיעה כיחידת החישוב הבסיסית עבור רשת הזרמים במקום מקטעים מאפשרת לפתור חילופי מים-תהום ברזולוציה דק-מרחבית. כמו תאי רשת MODFLOW, ניתן להגדיר HRU למלבנים (Gardner et al., 2018), אך בדרך כלל הם מוגדרים באופן טופולוגי בהתאם לתאי בסיס, כפי שהם בגישה שלנו (איור 1). באופן כללי, תחומי רשת קלים יותר לבנייה ולהרחבה קלה למערכות חישוב מקבילות, והם מאפשרים מפרט מרחבי גמיש של הטרוגניות אדמה וכיסוי קרקע. לעומת זאת, תחומים לא מנוגדים, כמו רשתות לא סדירות משולשות (TIN) המשמשים במודלים כולל tRIBS (Vivoni et al., 2004) ו- PIHM (Qu and Duffy, 2007), יכולים להתאים בצורה יעילה יותר לשטח מורכב. במקרה של PIHM (Qu and Duffy, 2007), יישומי TIN יושמו גם לביצועים טובים יותר של איזון מים באמצעות שיטת נפח סופי שמירה על המונים (LeVeque, 2002). בנוסף, מספרי TIN מקוננים יכולים לספק פתרונות יעילים כאשר ברצונך לקבל רזולוציה גבוהה יותר עבור אזורי יעד מסוימים (Wang et al., 2018). מודלים הידרולוגיים אחרים עם תחומים לא מגולגלים משתמשים בתתי בסיסים מוגדרים טופוגרפית כיחידות חישוביות יעילות, כולל SWAT (ארנולד ופורר, 2005), SAC-SMA (Ajami et al., 2004), HEC-HMS (Feldman, 2000) ו- TOPNET (Bandaragoda) ואח ', 2004).

איור 2מאגרי אגירת מי קרקע ברכיב PRMS של GSFLOW. בתוך כל HRU, מתבצעים חישובי חשבונאות מי קרקע לשלושה מאגרים רעיוניים לפי סדר הגדלת אגירת המים ועל פי פרמטרים שהוגדרו על ידי המשתמש. אילוץ אקלים חל על מאגר הנימים. מאגר הכבידה מחליף מים עם האזורים הבלתי רוויים והרוויים העמוקים יותר המיוצגים על ידי רכיב MODFLOW של GSFLOW, ונגר דניאני וזרימה מהירה מתרחשים במאגר הזרימה המועדף. (Markstrom et al., 2008)

אנכית, תת-רכיב ה- PRMS של GSFLOW מופקר למאגרי שטח אדמה רעיוניים רעיוניים, שאינם תואמים ישירות למיקומים פיזיים בעמודת האדמה, אלא מבוססים על סף רעיוני שהוגדר על ידי המשתמש. באופן ספציפי, בתוך HRU, אזור הקרקע מחולק לשלושה סוגי מאגרים - מאגר הנימים, מאגר הכבידה ומאגר הזרימה המועדף, אשר מתמלאים על מנת להגדיל את אגירת המים באמצעות חישובים יעילים של חשבונאות מים (סעיף 2.1.2) (איור 2). בבסיס אזור הקרקע של PRMS נמצאים תאי רשת MODFLOW המייצגים את האזור הבלתי רווי העמוק יותר ואת האזור הרווי. בעוד שלתאי רשת יש דיסקרטיזציה אופקית אחידה, עובי השכבה האנכית יכולים להיות משתנים על מנת להתאים להידרוסטרטגרפיה שונה. כדי לקשר בין רשתות PRMS ו- MODFLOW, על המשתמש להגדיר מאגרי כוח משיכה בכל צומת שונה של HRU ותא רשת (איור 1 ד). רכיב ה- MODFLOW של GSFLOW מסתמך גם על פלחי זרם זרם שצוינו על ידי המשתמש מייצגים פלגים, וההצטלבות של קטע זרם עם תאי רשת MODFLOW מגדירה את זרמי הזרם (איור 1 א, ד).

GSFLOW משתמש בשלב זמן חישוב יומי הן עבור רכיב PRMS והן עבור רכיב MODFLOW. תזרים מוחלף בין כל רכיב בכל שלב בזמן. ניתן להפעיל מספר "תקופות לחץ" מסוג MODFLOW לייצג תנאי גבול תת קרקעיים שונים בתוך תקופת הדמיה, אך אורכם חייב להיות ימים שלמים.

2.1.2 תיאור התהליך

סעיף זה כולל תיאור קצר של התהליכים ההידרולוגיים העיקריים המיוצגים ב- GSFLOW, עם פרמטרים נבחרים המפורטים בטבלה 1. ניתן למצוא את הפרטים המלאים במדריך GSFLOW (Markstrom et al., 2008). בפרט, טבלה 1 של Markstrom et al. (2008) מסכם את כל תהליכי המים העיליים שנתפסו על ידי מודולי PRMS, תהליכי מי התהום שנלכדו על ידי חבילות לחץ מסוג MODFLOW, ונהלי צימוד מודלים שנתפסו על ידי GSFLOW.

שולחן 1בחר פרמטרים של GSFLOW (Markstrom et al., 2008).

רכיב ה- PRMS של GSFLOW כולל מודולים שיכולים להמיר נתוני אקלים נפוצים זמינים לכניסות כוחות מלאות הדרושות להדמיות מודל. אלה כוללים שיטות לקביעת קרינת שמש פוטנציאלית, התפשטות אפשרית של התאדות, והצטברות או דלדול שלג, והם כוללים גם אלגוריתמים שונים להפצת נתונים מרחבית מנקודת תצפית אחת או כמה על פני קו פרשת המים כולו.

עבור זרימת אזור בלתי רווי, PRMS אינו מיישם את משוואת ריצ'רדס אלא מחיל חישובי ניתוב מי אדמה מבחינה חישובית לקביעת תשומות ותפוקות לכל HRU וכן החלפות בין שלושת סוגי המאגרים הרעיוניים בתוך HRU (מדריך GSFLOW, איור 19). , לוח 9). מאגר "אזור הנימים" מייצג מים המוחזקים על ידי כוחות נימים שהוא מקבל מים דרך חדירה (בהתבסס על פרמטר pref_flow_den) ומאבד מים באמצעות אידוי ושקיעה (בהתבסס על פרמטרים אדמה_לחות_מקסימום, אדמת_רכר_מקס, ו סוג הקרקע). לאחר הגעה לקיבולת השדה (פרמטר אדמה_לחות_מקסימום), העברת מים מאזור הנימים ל"מאגרי הכבידה ", שם המים יכולים לזרום אופקית כזרימה איטית (על בסיס פרמטרים slowcoef_lin ו slowcoef_sq) או לנקז אנכית לתחום התת-קרקעי העמוק יותר שמטופל על ידי MODFLOW (בהתבסס על פרמטרים ssr2gw_rate, ssr2gw_exp, ו ssrmax_coef). מאגרי הכבידה יכולים גם לקבל פריקה של מי תהום ממרכיב MODFLOW כאשר ערכי הראש ההידראולי חורגים מהגבול התחתון של אזור הקרקע. חלק קטן מאחסון מאגר הכבידה עובר ל"מאגר הזרימה המועדף "(בהתבסס על פרמטרים pref_flow_den ו סף), שם מתרחשת זרימה מהירה (בהתבסס על פרמטרים fastcoef_lin ו fastcoef_sq). אם מאגר הזרימה המועדף נעשה מלא (מבוסס על פרמטר סףואז המים יוצאים מאזור הקרקע כמי נגר דניאני (עודף רוויה). חישובי נגר הורטוניים (עודף חדירה) חלים על שברים אטומים של HRU (מוגדרים לפי פרמטר hru_percent_imperv). נגר וזרם פני השטח מנותבים בין HRU באמצעות ערכת זרימה מדורגת העוקבת אחר אינדקס שצוין על ידי משתמשים של HRU מקושר ומגיע בסופו של דבר לרשת הזרם.

רכיב MODFLOW של GSFLOW מחשב את זרימת המים באזור הבלתי רווי העמוק יותר (חבילת לחץ UZF), זרמים (חבילת SFR) ויחידות מי תהום רוויות (חבילות זרימה של BCF, LPF או UPW). זרימת אזור בלתי רווי מחושבת על פי גישת גל קינמטית, המניחה כי זרימת נימים (שיפוע לחץ) היא זניחה בהשוואה לזרימה המונעת על ידי כוח הכבידה. אפקטים הנשלטים על ידי נימים מיוצגים במקום באזור הקרקע של רכיב PRMS שתואר לעיל. זרימת אזור בלתי רווי ברכיב MODFLOW מחושבת כגלים המייצגים חזיתות הרטבה וייבוש. ניקוז מאגר הכבידה מרכיב PRMS זורם לראש האזור הבלתי רווי של רכיב MODFLOW, אלא אם כן טבלת המים נמצאת מעל בסיס אזור הקרקע - מוגדר על ידי החלק העליון של תחום MODFLOW - ובמקרה זה מאגרי הכבידה מתנקזים ישירות אל אזור רווי. סימולציות אזור רווי (MODFLOW) משתמשות בשיטת ההפרש הסופי למשוואת זרימת מי התהום.

זרם זרימה, כפי שמחושב על ידי רכיב MODFLOW, כולל תשומות ממגיעים במעלה הזרם, נגר לפני השטח וזרם זרם מרכיב PRMS, זרימת בסיס מהפרשת האזור הרווי, וזרימות מאזורים בלתי רוויים אפשריים. התפוקות כוללות זרימה עד למורדות הזרם, דליפה למי תהום וזרימות לאזורים בלתי רוויים אפשריים. פריקה על פני הנחל עולה בהתאם לחוק דארסי עם מאפיינים הידראוליים מוגדרים של זרמים. קיימות חמש אפשרויות שונות לפריקת זרמים וחישובי ראש (פרמטר ICALC). המשתמש יכול לציין עומקי זרם לכל טווח הגעה, להחיל את משוואת מאנינג על ערוץ מלבני רחב המונח, להחיל את משוואת מאנינג עבור ערוץ מבוסס שמונה נקודות וגיאומטריה של שטף שיטפון, להחיל תחנות כוח כוח בתחנה בין פריקה לרוחב הזרימה. , ועומק הזרימה (Leopold and Maddock, 1953), או ציין טבלת בדיקת קלט של גיאומטריות הידראוליות לכל קטע. ניתן לדמות זרימת זרם כזרימה במצב יציב (פרמטר IRTFLG = 0), לפיה היציאה לזרם הבא מגיעה למאזני תשומות, או כזרימה חולפת (פרמטר IRTFLG & gt 0) באמצעות ניסוח גלים קינמטיים לניתוב מים עיליים בערוצים, אשר מיישם את ההנחה כי שיפוע פני המים מתקרב לשיפוע החיכוך ולכן מבטל את השפעות המים האחוריים.

שינויים מסוימים בוצעו בקודי ה- PRMS העצמאי וה- MODFLOW המקוריים לשימושם ב- GSFLOW. יש לציין כי מבנה אזור הקרקע של PRMS השתנה באופן משמעותי כדי להקל על הצמדתו לתחום תת קרקעי MODFLOW. שינויים אחרים צוינו במדריך GSFLOW (Markstrom et al., 2008). תכונה נוספת המתחילה בגרסה 1.2.0 שאינה מתוארת במדריך המקורי היא הכללת MODFLOW-NWT (Niswonger et al., 2011), עדכון חזק יותר מבחינה מספרית ל- MODFLOW-2005 (Harbaugh, 2005) לזרימת מי תהום. .


שיטות

לא נעשה שימוש בשיטות סטטיסטיות לקביעת גודל המדגם מראש. הניסויים לא חולקו באקראי והחוקרים לא הסתנוור להקצאה במהלך ניסויים והערכת תוצאות.

מאגר מידע

כדי לבנות את מאגר איגוד היונקים-יונקים חילצנו בתחילה את כל הנגיפים הרשומים כמופיעים אצל כל יונק ממאגר הוועדה הבינלאומית לטקסונומיה של נגיפים (ICTVdb), ועברנו בנפרד כל נגיף המופיע ברשימת המאסטר המהדורה השמינית של ICTV וחיפש ספרות למארחי יונקים. כל שמות המינים הוויראליים היו שם נרדף למהדורה השמינית של ICTV, שהייתה הסמכות העולמית בנושא טקסונומיה נגיפית בתחילת איסוף הנתונים שלנו בשנת 2010 (נספח 16). בין השנים 2010-15 הכותבים וצוות עוזרי המחקר והמתמחים בברית EcoHealth ריכזו עמותות למיני יונקים לכל אחד מ -586 וירוסים ייחודיים שפורסמו בספרות בין השנים 1940–2015 בתחילה באמצעות שם הנגיף ומילים נרדפות כמילות החיפוש העיקריות. מאגרי עזר מקוונים (Web of Science, PubMed ו- Google Scholar) בנוסף לחיפוש בספרים, ביקורות וספרות שצוטטו במקורות שכבר השגנו. כדי לצמצם את החיפוש אחר מארחים עבור נגיפים שנחקרו היטב, כללנו את המונחים 'מארח (ים)', 'מאגר', 'חיות בר', 'בעלי חיים', 'מעקב' ומונחים רלוונטיים אחרים כדי למצוא פרסומים הקשורים למארח. טווח. האגודות נבדקו בשלמותן למאגר טפילי היונקים הגלובליים לנגיפים של פרימטים, טורפים וכלבנים, גרסה החל מנובמבר 2006 (GMPD, http://www.mammalparasites.org) 29 וביקורות אחרות שפורסמו ספציפיות לעטלפים ומכרסמים 12 , 30,31. ביטלנו את כל הרשומות ללא מידע מארח ברמת המין, ואלה שלא הצלחנו לאתר את הפניות העיקריות. לא נכללו רשומות של עמותות יונקים-וירוסים ממחקרי זיהום ניסיוניים, פארקים זואולוגיים או מתקני רבייה בשבי או תגליות של תרבית תאים. מינים מארחים הוגדרו כביתיים או פראיים בעקבות רשימת מיני בעלי החיים מבית ארגון המזון והחקלאות (FAO) 32, והסרנו את החולדה השחורה (ראטוס ראטוס) ועכבר ביתי (שריר מוס) מהרשימה המבויתת שכן שני המינים הללו מהווים קטגוריה 'ביתית' משלהם. מינים מארחים סווגו כמופיעים בבתי גידול שעברו שינוי של בני אדם או שהם ניצודים על ידי בני אדם - שניהם אומדנים למגע אנושי - על פי תיאורי המינים של הרשימה האדומה של IUCN 33.

כדי לשלוט בעובדה ששיטות זיהוי מסוימות מהימנות יותר מאחרות בזיהוי הפתוגן המעניין, רשמנו את שיטת הזיהוי המשמשת לכל אסוציאציה של נגיף-וירוס וקיבענו כ- 0, 1 או 2 על פי מהימנות שיטת האיתור. בשימוש. בידוד ויראלי ואיתור PCR עם אישור רצף הועברו כ -2 (= נתונים מחמירים) ושיטות סרולוגיות הושגו כ- 0 או 1, עם בדיקות ניטרול נגיפיות או סרומיות (= 1), וכן מבחני חיסון מקושרים לאנזים (ELISA), אנטיגן. מבחני זיהוי, ובדיקות סרולוגיות אחרות שהושגו כ (= 0). 'נתונים מחמירים' נותחו בנפרד כדי להסיר אי וודאות פוטנציאלית עקב תגובת תגובה צולבת עם נגיפים קשורים. חיפשנו באופן ממצה בספרות כדי לזהות זיהוי מחמיר של כל זוג יונקים וירוסים, וכללנו רק את הממצא הסרולוגי עבור אותו זוג אם לא היו מחקרים על בידוד מולקולרי או ויראלי. חילקנו נתונים וערכנו ניתוחים נפרדים עבור מערך הנתונים כולו (איכות גילוי 0 + 1 + 2) והנתונים המחמירים (ציון 2) כדי להפחית את הרעש מהתגובתיות הצלבית הסרולוגית. רשימה מלאה של שיוכי נגיף-וירוס, שיטות איתור והפניות משויכות מוצגים במאגר הנתונים והקודים שלנו בכתובת http://doi.org/10.5281/zenodo.596810.

ההגדרה המבצעית שלנו לנגיף זואונוטי כוללת כל נגיף שהתגלה בבני אדם ולפחות במארח יונק אחד אחר לפחות בפרסום ראשוני אחד, ואינו מרמז על כיווניות. מערך הנתונים השלם שלנו של אסוציאציות ויראליות של יונקים מדגים עדויות לזיהום ויראלי בעבר או הנוכחי, שלדעתנו הוא פרוקסי סביר למדידת זליגה, ומערך הנתונים המחמיר שלנו במיוחד חזק יותר להוציא מיני שייתכן שנחשפו לנגיף נתון לעומת אלה שמראים כמה ראיות לשכפול בתוך המינים המארחים. ההגדרה הדו-כיוונית שלנו לשפוך היא בעקבות הצעה של ארגון הבריאות העולמי המגדיר זונוזיס כ"כל מחלה או זיהום המועבר באופן טבעי מחיות חוליות לבני אדם ולהיפך "(http://www.who.int/zoonoses/ en /) ואינו כולל כל מחוללי מחלות אנושיים שהתפתחו לאחרונה ממחוללי מחלות לא אנושיים (למשל, HIV אצל פרימטים), לפי Woolhouse and Gowtage-Sequeria (2005) (סימן 1).

על מנת לטפל בהשפעת ההעברה מבני אדם לחיות בר במודלים שלנו, ניהלנו גם את הליך התאמת ובחירת מודל ה- GAM שלנו (ראו להלן) על תת-קבוצה של נתונים שכללו כל נגיף 'הפוך זואוניטי' אפשרי. תחילה חיפשנו בכל מערך הנתונים שלנו והסרנו כל מקרה ברור של העברה מבני אדם לפרימטים, למשל, כולל רשומות מפארקים זואולוגיים וממרכזי שיקום חיות בר (כפי שצוין לעיל). בנוסף, הסרנו מספר נגיפים אנושיים המועברים לרוב מבני אדם בחזרה לפרימטים שאינם אנושיים כדי ליצור תת-נתונים של נתונים ללא נגיפי הזואונוטית ההפוכה (נגיף אדנו-נגיף-אדנו-2 הקשור לאדנו-וירוס הרפס-אנושי 4 וירוס מטא-פנאומו-אנושי אנושי וירוס סינסיציאלי נשימתי. וירוס חזרת חזרת נגיף) 34,35. אנו מציגים ניתוחים נוספים אלה למעט זונוזות הפוכות וקוד משויך בכתובת http://doi.org/10.5281/zenodo.596810.

העושר הנגיפי הכולל מחושב כמספר הנגיפים הייחודיים לזיהוי ICTV שנמצאו במין מארח נתון, ועושר נגיפי זואנוטי הוגדר כמספר הנגיפים הייחודיים לזיהוי ICTV במין מארח נתון שאותרו גם בבני אדם במאגר שלנו. .

כדי להעריך הטיה מחקרית הן עבור המארח והן של הנגיף, חיפשנו את ISI Web of Knowledge, כולל Web of Science ו- Zoological Record, וב- PubMed אחר מספר פרסומי המחקר עבור מארח או פתוגן נתון. רשמנו שני ערכים למספר עבודות המחקר עבור מארח. הראשון היה חיפוש פשוט על ידי בינומי מדעי ב- Zoological Abstracts, שם רשמנו את מספר המאמרים שפורסמו בין השנים 1940–2013 עבור כל מינים מארחים. רשמנו גם את מספר הפרסומים הקשורים למחלות עבור כל מין באמצעות מילת המפתח הבינומית והמדעית בנושא: מחלה * או וירוס * או פתוגן * או טפיל *. המפעיל * שימש בקריטריוני החיפוש שלנו כדי ללכוד את כל המילים שמתחילות בכל מונח, למשל, 'טפיל *' יחזיר להיטים עבור 'טפיל', 'טפילים' ו'טפיל '. קריטריוני חיפוש אלה כללו באופן כללי מאמרים שבדקו מחלות או מחלות, וירוסים או נגיפים, פתוגנים או פתוגנים, טפילי טפיל או טפיל, לכל מין. רק מדד אחד של מאמץ מחקר למארח נכלל בכל פעם בבחירת המודל. מאחר שמדדים אלה נמצאים בקורלציה גבוהה ומספר הציטוטים הקשורים למחלה עלה על המספר הכולל של פרסומים למארח בכל המודל למעט אחד (זואוזות כל הנתונים), החלטנו להשתמש בפרסומים הקשורים למחלות כמאמץ המחקר שלנו למין. מדד לכל המודלים כדי לשפר את הפרשנות. כמו כן, רשמנו את מספר הפרסומים לכל אחד מ -586 מיני וירוסים באמצעות חיפוש מילות מפתח לפי שם הנגיף ב- PubMed ו- Web of Science. רק מדד אחד לכל מאמץ מחקרי נגיף נכלל בכל פעם בבחירת המודל.

השתמשנו במדד המתוקן מבחינה פילוגנטית של מסת הגוף (ראה פרטים בהמשך תחת 'אות פילוגנטי') כמשתנה החיזוי העיקרי להיסטוריה של החיים, מכיוון שהוא היה היחיד שעבורו קיים מערך נתונים כמעט מלא עבור המינים במערך הנתונים שלנו. השתמשנו במסת הגוף שנרשמה במסד הנתונים PanTHERIA 36 עבור 709 מינים. עבור שלושה מינים השתמשנו באפשרות הבחירה השנייה, מסת הגוף שתועדה במסד הנתונים של AnAge 37. עבור 11 מינים השתמשנו באפשרות הבחירה השלישית של מסת הגוף המחודשת שנרשמה ב- PanTHERIA, המבוססת על אורך הגוף או אורך הזרוע, תלוי במין. במשך 36 מינים השתמשנו במסת הגוף הממוצעת עבור בני הסוג שמסת הגוף שלהם נרשם. בדקנו משתנים אחרים בהיסטוריה של החיים הקשורים לאריכות ימים 38, הצלחה רבייה וקצב חילוף החומרים הבסיסי, אך בסופו של דבר אלה לא נכללו בגלל המספר הגבוה של רשומות חסרות.

אות פילוגנטי

אנו מתייחסים לסוגיית אי-העצמאות של תכונות של מינים מארחים עקב מוצא משותף 39 בניתוחים שלנו על ידי כימות תחילה של האות הפילוגנטי עבור כל משתנה במודל שלנו באמצעות K 40 של בלומברג. ה- K של בלומברג מודד את האות הפילוגנטי בתכונה נתונה על ידי כימות שונות של תכונות ביחס לציפייה תחת מודל אפס של תנועה בראונית של התפתחות תוך שימוש בעץ פילוגנטי באורכי ענף משתנים. ערכי K של בלומברג מועברים מ- 0 לאינסוף, עם ערך 0 השווה ללא אות פילוגנטי וערכים הגדולים מ -1 שווים לאות פילוגנטי חזק עבור מינים קרובים זה לזה שחולקים יותר ערכי תכונה דומים. אמנם אין ניתוק ערך K מוגדר בבירור ליישום שיטות השוואה פילוגנטיות, אך ערך לא משמעותי של & lt1, או יותר שמרנית & lt0.5, אופייני לתכונות עצמאיות פילוגנטית. המשתנים המארחים היחידים שבדקנו עם ערכי K משמעותיים & gt0.5 היו מסת הגוף המארח, והמדד הישיר שלנו למרחק פילוגנטי לבני אדם. אמנם ישנם מספר כלים זמינים לבקרת פילוגניה בניתוחים רב-משתנים, למשל, באמצעות מודלים פילוגנטיים כללים פחות מרובעים (למשל, PGLS) 41, כרגע אין גישה דוגמנית לבקרת פילוגניה באמצעות GAM. חשוב מכך, מאמץ סיטונאי לשלוט בפילוגניה על פני כל המשתנים בניתוח שלנו לא היה מתאים כאן, מכיוון שאנו בודקים במפורש את החשיבות היחסית של מרחק פילוגנטי לבני אדם לעומת תכונות מארחות אחרות, כולל מדדים למגע בין אדם לחיות בר כדי לחזות את שיעור נגיפים זואוטיים למין מארח נתון. מסת הגוף השאירה כמשתנה היחיד במודלים שלנו, למעט המדדים הישירים שלנו למרחק פילוגנטי, עם ערך K של Blomberg משמעותי שהיה גדול מ- 1. שלטנו בהשפעה המשמעותית של היסטוריה אבולוציונית משותפת באמצעות רגרסיה של ווקטור עצמי פילוגנטי (PVR). 42,43 על מסת הגוף. גישת ה- PVR אפשרה לנו להסיר את האות הפילוגנטי לכל משתנה שאינו תלוי באופן פילוגנטי ואז לכלול את הערכים המתוקנים בחזרה ב- GAM שלנו, תוך שמירה על משתני ניבוי כמו מרחק פילוגנטי לבני אדם כלא משתנים. חישבנו PVR למסת גוף באמצעות חבילת R PVR ופילוגניית מארח הסבירות המרבית שלנו בהתאמה אישית באמצעות ציטוכרום. ב רצפים מוגבלים לטופולוגיית רמת הסדר של עץ העל של היונקים 28,44. המשתנה החדש שלנו למסת גוף השולט על אות פילוגנטי (PVRcytb_resid) הסיר את רוב האות הפילוגנטי, כאשר K = 3.5 לא הותאם, ו- K & lt 0.5 לאחר תיקון PVR. המדד החדש שלנו של סולם מסת הגוף באותו אופן, עם ערכים גדולים יותר השווים למינים עם מסת גוף גדולה יותר. מסת הגוף של PVR נכללה בבחירת מודל ה- GAM שלנו עבור כלל העושר הנגיפי ומודלי הנגיף הזואוטיים.

ניתוח פילוגנטי מארח ורוחב מארח פילוגנטי

השתמשנו בשני עצים פילוגנטיים שונים של יונקים בניתוחים שלנו והשתמשנו במסגרת בחירת מודל כדי לקבוע מה הסביר בצורה הטובה ביותר את הקשר הנצפה שלנו לעושר נגיפי זואונוטי. ראשית גוזמו את גזע העל של היונקים ב- R (קוף החבילה, טיפים של טיפות פונקציה) כדי לכלול רק מינים נרדפים ל -753 המינים במאגר המידע שלנו 28,45. ביצענו מילים נרדפות לכל שמות המינים המארחים בין גידול היונקים לאגודות המארח במסד הנתונים שלנו באמצעות הרשימה האדומה IUCN 33. אם המין היה רשום כ'בקר 'הוא הניח שכן בוס שור, כל הרישומים האחרים לא נכללו אם הייתה אי בהירות לגבי השם המדעי למין המארח. שנית, ציטוכרום מקסימאלי ב עץ נוצר באמצעות אילוץ של עץ רב-צירתי עם מוניות המוגבלות לפקודותיהן והטופולוגיה ברמת הסדר התואמת את זה של עץ העל היונק 6, בהתאם לקובץ עץ ניוויק זה: (MONOTREMATA, ((DIDELPHIMORPHIA, (DIPROTODONTIA, PERAMELEMORPHIA) ), (PROBOSCIDEA, ((PILOSA, CINGULATA), ((((RODENTIA, LAGOMORPHA), (PRIMATES, SCANDENTIA)), ((((CETARTIODACTYLA, PERISSODACTYLA), CARNIVORA), CHIROPTERA), EULIPOTYPHLA)) ). זה יצר עץ יונקים ברזולוציה גבוהה יותר באמצעות ציטוכרום ב נתונים, עם מיקום אמין יותר של היחסים הטקסונומיים ברמה הגבוהה יותר ממה שהתקבל בניתוחים פילוגנטיים חקרניים באמצעות ציטוכרום ב נתונים בלבד. מספרי הצטרפות ל- GenBank וציטוכרום ב אורכי הרצף עבור כל מין מופיעים במאגר הנתונים והקודים שלנו. ציטוכרום ב שברי גנים נעו בין 143 ל -1,140 bp, כאשר & gt1,000 bp זמין עבור 558/665 (84%) מהטקס. נתונים שמקורם בציטוכרום ב עץ המוגבל לטופולוגיה של גידול העל של יונקים נבחר כאפשרות הטובה ביותר בכל משחקי ה- GAM המתאימים ביותר.

רצפים היו מיושרים באמצעות MUSCLE עם הגדרת ברירת המחדל ב- Geneious R6, ונבדקו חזותית לגבי שגיאות 46. עץ הסבירות המקסימלי הטוב ביותר עם ובלי עץ האילוץ נוצר באמצעות RAxML-HPC2 ב- XSEDE באמצעות שרת ה- CIPRES Science Gateway v.3.1 (אסמכתא 47) תוך שימוש במודל GTR עם זרעי פרסימוני, 1.000 משכפל Bootstrap, והדברים הבאים, ספציפיים. פרמטרים (raxmlHPC-HYBRID -s infile -n result -x 12345 -g constraint.tre -N 1000 -c 25 -p 12345 -fa -m GTRCAT).

מטריצות של מרחקים פטריסטיים זוגיים בין כל המינים, כולל הומו סאפיינס, חושבו משתי הפילוגניות באמצעות הפונקציה 'קופנטית' בחבילת R ape 45. עצים פילוגנטיים (פורמט ניואיק לעץ על גזום ולציטוכרום ב עץ) ומטריצות של מרחק פילוגנטי מבני אדם מסופקות במאגר הנתונים והקודים.

חישבנו ממוצע, חציון, מקסימום, דקות, IQR וסטיית תקן (מיוצג כפונקציה גנרית F במשוואה (1) של רוחב המארח הפילוגנטי (PHB) מכל מארחי היונקים הידועים עבור כל נגיף תוך שימוש במרחקים הפטריסטיים הזוגיים לכל אגודת יונקים - יונקים לכל המארחים של נגיף נתון למעט בני אדם, כאשר אני מאינדקס כל יונק במאגר, וכך גם י, ו י מייצג את סך היונקים במאגר. צברנו את ערכי ה- PHB הללו באמצעות ערכים ממוצעים, חציון או מקסימום ברמה ויראלית, בסוג ובמשפחה נגיפית כדי ליצור משתנים טקסונומיים ברמה גבוהה יותר של רוחב המארח לקבוצה נגיפית. המדד שלנו דומה לאלו שפותחו על ידי מחקרים קודמים כדי להבין את הספציפיות של מארח הטפילים 48,49,50, אך כאן אנו יוצרים משתנה הכללתי למדידת רוחב המארח הוויראלי שניתן לצבור ברמות טקסונומיות נגיפיות שונות.

כדי ליצור נתונים מורחבים באיור 9, שמות טקסונים וענפים סופניים של ציטוכרום ב העץ המוגבל לעץ העל היה מקודד בצבע תוך שימוש בשאריות מהנגיף הזואוטי הכי מתאים GAM (החזוי מינוס עושר ויראלי זואוטי שנצפה) למיני חיות בר, ונקבע באמצעות פונקציית plot.phylo בקוף החבילה R 45. סמלים (עיגולים) בטקס מסוף שנוספו בנוסף להמחשה טובה יותר של צבעי ערך שיורי נוספו באמצעות פונקציית willeerd.nodelabels (http://dx.doi.org/10.5281/zenodo.10855). כל היונקים הימיים, חיות הבית ומוניות אחרות עם נתונים חסרים נקודדו כאפור לנתונים חסרים.

מפת חום של עושר נגיפי (נתונים מורחבים איור 2) נוצרה באמצעות מפת הבמה של החבילה R, ואלגוריתם האשכולות ההיררכי 'השלם' למיון תאים על פני שורות ועמודות לפי ערכים דומים של עושר נגיפי. כל מגרשי הקופסאות, ההיסטוגרמות וכל שאר הדמויות שנוצרו ב- R v.3.3.0 (ref. 51). קוד R ליצירת דמויות ראשוניות מסופק במאגר הקוד.

התאמת ובחירת GAM

We fit a set of generalized additive models (GAMs) that included all of our selected potential variables explaining the number of total viruses or number of zoonoses in hosts, as well as whether viruses were zoonotic (for conceptual framework and summary of each GAM see Extended Data Fig. 1 for full variable list and data sources see Supplementary Table 1). Our use of GAMs, an incorporation of smooth spline predictor functions into the generalized linear model (GLM) framework, allowed us to examine the functional form of our predictor variables (for example, Figs 2 and 4). Categorical and binary variables (for example, host order, IUCN status of hunted or not, and certain viral traits) were fit as random effects of each variable level. We used automated term selection by double penalty smoothing 52 to eliminate variables from the models. This method removes variables with little to no predictive power and has been shown to be comparable or superior to comparing alternate models with and without variables. We did use the model comparison method for domestic animals, where the sample size was not sufficient for fitting all variables. In this case dropping variables by double penalty smoothing still allowed pruning the model list to eliminate redundant models. Where there were competing variables measuring the same mechanistic effect, we fit alternate GAMs using only one of each of these variables (as specified in below and in the Extended Data Fig. 1). These included phylogenetic variables, citation counts from alternate databases, and different measures of human population/host overlap. For example, to capture host phylogeny we used phylogenetic distance based on either the mammal supertree 20 or a purpose-built cytochrome ב constrained by the topology of the mammal supertree, but never both in the same model. For human population variables, we looked at either variables measuring overlap of species range with human-occupied areas, or human population in those areas, as area- and population-based measures were highly co-linear. For citation variables, we looked at either all citations or the number of disease-related citations for each host species, not both, and similarly citations in either PubMed or Web of Knowledge. We used a binomial GAM to analyse the 586 mammalian viruses in our database and identify viral traits that may serve as predictors of zoonotic potential. Co-linearity was not a major issue among variables included in the same model.

We inspected models within 2 AIC units of the model with the lowest AIC, and present the outputs of the best-fit and all other top models (<2 ΔAIC) in our data and code repository. In general, variable effects retained the same functional form and effect size across models within 2 ΔAIC—differences were limited to the adding or dropping of very weak, insignificant effects, or switching between highly correlated competing variables such as citation counts from different databases.

For our model of number of zoonoses per host, we used the total number of observed viruses per host as an offset, effectively fitting a model of proportion of zoonotic viruses per host. We found this variable had a coefficient near to one when it was used as a linear predictor, indicating its appropriateness as an offset.

We repeated the model selection process for all models using the more stringent set of data that used only virus identified in mammal hosts using viral isolation, PCR, or other methods of nucleic acid sequence confirmation, that is, that excluded all associations detected via serology.

All models were fit using the MGCV package for R (version 1.8-12.). We used the model with the lowest AIC to predict the number of expected zoonotic viruses for each host species, using all the data from our database that had complete observations for the best model. Our top models consistently outperform the alternatives by wide margins, as measured by AIC. We used standard methods in the R package MGCV to calculate deviance explained, which is defined as (ד_null – ד_model)/ד_null. In this formula, ד_null is the deviance (−2 × likelihood) of an intercept-only, (or, in the case of the zoonoses model, offset-only), model, while ד_model is the deviance of our best-fit model.

Analyses were limited to terrestrial mammal species as defined by the IUCN Red List (marine mammals were excluded) and we ran separate analyses for wild and domestic animals. As domestic animals made up a much smaller dataset (נ = 32 species) with a unique set of explanatory variables that differed from the wild species analyses, these models were fit separately. Domestic species results are also discussed separately (see Supplementary Discussion) as they are tangential to the primary findings.

Model cross-validation

We used k-fold cross-validation to evaluate goodness of fit for all models. The data was divided into ten folds, selected randomly. For each fold, the model was re-fit based on the other nine folds, and goodness of fit was assessed by conducting a nonparametric permutation test comparing the predicted values versus the real values for the kth fold, where a non-significant result indicates that predictions are unbiased. Poisson models goodness-of-fit may be compared via a parametric χ 2 permutation test on deviance values, but this test is inappropriate in the case of models with low mean values, as is our case for some of our GAMs 53 . ה k-fold cross-validation confirmed the robustness of our model predictions for wild mammals, code and outputs from these tests for each best-fit GAM are provided in Supplementary Table 2.

In addition to randomly selected k-fold cross-validation, we evaluated the robustness of our models via a non-random geographic cross-validation, code and summary document provided in our code and data repository. In order to meaningfully organize species in our dataset by geographic areas, we used the 34 zoogeographic regions for terrestrial mammals recently redefined by Holt et al. 54 . Using QGIS 55 , a mammal-specific zoogeographical shapefile provided by Holt’s group at the University of Copenhagen (http://macroecology.ku.dk/resources/wallace) was intersected (using QGIS Vector > Geoprocessing Tools > Intersect) with a shapefile of IUCN’s host ranges for all mammals in our database. Areas of these intersections were then calculated using an equal-area projection (Mollweide), and each host was assigned to only the region that contained the greatest proportion of its range. We systematically removed all observations (species) from each given zoogeographical region, re-fit the model using all observations from outside the region, then performed a non-parametric permutation test comparing the predicted values to the observed values for that region. Non-significant results indicate that model predictions are unbiased. Significant results for a given zoogeographic region suggest that there are location-specific biases that remain unexplained. This systematic zoogeographic cross-validation supported the overall robustness of our model predictions for several models, that is, all-data zoonoses, all-data total viral richness, and stringent-data total viral richness models. For these models, even though a majority of zoogeographic regions were unbiased, we still identified several zoogeographic regions that showed significant bias. Our zoogeographic cross-validation was equivocal for the stringent-data zoonoses model, with eight regions that showed evidence of bias and seven regions which showed no evidence of bias (Supplementary Table 3).

The presence of biased regions in our zoogeographic cross-validation suggested the possibility that there is a systematic bias associated with geography not captured by the predictor variables in our models. To further investigate this, we added zoogeographical region as a categorical random effect to each of our best-fit models. For three of our best-fit GAMs (all-data total viruses, stringent-data total viruses, and stringent-data zoonoses) the addition of zoogeographical region as a categorical random effect decreased the model AIC and increased the total deviance explained by 3–5%. The all-data zoonoses model, which was used to create the series of maps in the main manuscript, does not improve with the inclusion of zoogeographical region. However, the improved predictive power of models using region-specific terms is offset by the increase in degrees of freedom (that is, if we included 31 zoogeographic regions as separate terms) and, more importantly, a decreased interpretability of our models—especially when compared to the geographical variables we used, such as host area or species range overlap with human modified habitat. We opted not to include these random effects in our final GAMs in favour of keeping only variables interpretable in the context of our host trait-specific framework. Instead, we indicate areas of geographic bias directly on our spatially mapped outputs. (See ‘Calculating and visualizing missing viruses and missing zoonoses’, below.) Summaries of these models, along with changes in relative deviance explained for the other explanatory variables when zoogeographic region is added as a random effect, are provided in our code and data repository.

Spatial variables

For all the wildlife hosts we used the geographic range information obtained from the IUCN spatial database version 2015.2. Wildlife host species shapefiles needed to replicate analysis are hosted on our Amazon S3 storage (https://s3.amazonaws.com/hp3-shapefiles/Mammals_Terrestrial.zip) 33 . IUCN depict species’ range distributions as polygons based on the extent of occurrence (EOO), which is defined as the area contained within a minimum convex hull around species’ observations or records. This convex hull or polygon is further improved by including areas known to be suitable or by removing unsuitable or unoccupied areas based on expert knowledge. To accurately calculate the area in km 2 of each host species we projected the polygons to an equal area projection (Mollweide).

We calculated various thresholds of mammal sympatry based on percentage of range overlap for each wild species in our database using IUCN shape files for all mammals globally. We define mammal sympatry as the number of mammalian species that overlap with the target species’ geographic range. We calculated mammal sympatry for each wild species in our database at six different thresholds based on the percentage area overlap with the target species geographic range, that is, the number of other wild mammal species with any (>0%), ≥ 20%, ≥ 40%, ≥ 50%, ≥ 80%, or 100% range overlap. The six different thresholds for mammal sympatry were included as competing terms in our model selection for the total viral richness models.

We derived and tested several global measures to estimate the level of human contact with each wild species in our database. To estimate the area of host geographic range covered by crops, pastures, rural and urban areas—as measures of global human contact with a given wildlife species—each species polygon was intersected (overlapped) with spatial data representing those land cover types. Additionally, we calculated the total number of people within each host geographic range using data from HYDE database 56 , and also separately totalled the number of people in rural and urban populations. We obtained data on the distribution of cropland, pastures, rural and urban areas also from the HYDE database 56 for the years 1970, 1980, 1990, 2000 and 2005 with a spatial resolution of 5 × 5 arc minutes, equivalent to 10 km by 10 km at the equator. These datasets were created by combining information from satellite imagery and sub-national crop and pasture statistics 56 . In our GAMs, we used several transformations of these variables as competing proxies for human–wildlife contact: the log-transformed area of host range that overlapped each type of human-modified land cover, log-transformed human population in the host range, log-transformed human population density in the host range, and the log-ratio of urban and rural human populations in the host range. For each of these, we also included as a variable the change in value from 1970 to 2005. Human–wildlife contact variables that significantly covaried were excluded (set as competing terms) during the model selection process. The ratio of urban to rural human population was used to disentangle variables of human–wildlife contact that significantly covaried. For example, the total area of a species range that overlapped with urban and rural areas was highly correlated with the total geographic area variables we examined (for example, total area, and area in crop, pasture, rural, and urban). The ratio of urban to rural population allowed us to separate these signals and best represent this proxy of per-species human–wildlife contact. All spatial analyses were performed in R (3.3.2) 51 , using the following R libraries: raster 57 , rgdal 58 , and sp 58 .

Calculating and visualizing missing viruses and missing zoonoses

We used each respective best-fit, all-data GAM from the total viral richness and proportion zoonoses models to calculate the estimated number of viruses that would be observed if the research effort variable for each species was equal to that of the most-studied wild species in our database (Vulpes vulpes with 4,433 total publications and 1,477 disease-related publications). We used the prediction of the total virus richness GAM as the offset for the zoonoses GAM. We then calculated the missing viruses and missing zoonoses by subtracting the observed number of viruses and zoonoses from the predictions based on maximum research for each wild mammalian species.

We used geographic range maps from the IUCN spatial database (2015.2) to visualize the spatial distribution of observed host–virus associations, observed host–zoonoses associations, these associations as predicted under maximum research, and the maximum predicted minus the observed viruses, or the missing viruses and missing zoonoses (for example, Fig. 3 Extended Data Figs 3, 4, 5, 6, 7, 8 Supplementary Table 4). We also generated maps comparing species richness of all species in the IUCN database against those with viral associations in our database. For each species, the distribution range was converted to a grid system with cells 1/6 of a geographic degree (approximately 18 km × 18 km at the equator line). Each grid cell was assigned a value of one to indicate presence. We repeated this process and assigned the observed and predicted-under-maximum-effort number of zoonotic viruses to their correspondent grid cells. Viral and host species richness maps, and both the missing viruses and missing zoonoses maps were calculated by overlying individual grids. Each richness map represents the sum of all values for a given grid cell. We repeated the process for all the host species in our database and created viral and species richness maps for the following orders: Carnivora, Cetartiodactyla, Chiroptera, Primates and Rodentia. These taxa were selected because they represent 681/736 (92.5%) of wild mammal species in our database.

In the process of translating our non-spatial, species-level predictions to geographic space (that is, layered raster maps), we identified several geographic areas where our model predictions of the number of total and zoonotic viruses were systematically biased, that is, פ < 0.05 (Supplementary Table 3). In order to visualize the geographic biases of our non-spatial model predictions in our maps (see above regarding zoogeographic cross-validation), we demarcate regions with significant bias with hatching. Hatched regions represent areas where model predictions of total or zoonotic viral richness deviate systematically for the collection of species in that grid cell. For each grid cell we calculated whether the bias exceeded that expected from a random sampling of hosts. This was accomplished by summing the residuals from 100,000 random draws of species in our dataset that was equal to the number of species present in that grid cell, then identifying grid cells where the observed bias was outside the middle 95% of the randomly drawn distribution. We calculated this for all mammals, and separately for each order across all grid cells. Areas with observed bias (outside of 95% of the randomly drawn distribution) are shown with hatched regions on each missing virus and missing zoonoses map.


תוצאות

Eco-Linguistic-Niches (ELNs)—i.e. the range of geographic and environmental parameters that characterize a linguistic territory—were modelled for 29 top-level linguistic groups of NG (see Methods), including 9 Austronesian language family groups and 20 Trans-New Guinea (TNG) language family groups (identified by index numbers given in Fig 1, S1 Fig., Text 2 in S1 File).

(A) Linguistic areas (Polygons) of Trans New Guinea (TNG) and Austronesian language groups (identified by index numbers given in C * includes groups 1–7, see Materials and Methods.) and location of villages (dots) used as occurrences for Eco-Linguistic Niche Modeling map background generated by using R::Raster—CRAN Repository, public domain software. (B) Principal Component Analysis of Eco-Linguistic Niches of New Guinea language groups and Eigen values of the most explanatory axis. Red arrows show environmental variable contributions. Environmental variable codes are explained in Table 2. Ellipses represent the inertia distributions for groups belonging to TNG (green) and Austronesian (blue) language groups. Grey background represents the available environment in New Guinea.

The applied consensus method (see Methods) effectively allows one to calculate a best-fit ELN model from the 10 most commonly used predictive algorithms in ENM for each of the 29 linguistic groups present in the studied region. Comparisons of geographic distributions and ecological space positions of ELNs with actual linguistic areas of the 29 modelled groups show that: 1) the territory of a linguistic group only rarely corresponds to the territory of the predicted ecological niche (only seven cases) 2) ELNs are variably reliant on at least six different sets of environmental parameters 3) half of the linguistic groups share their ELN with at least one other linguistic group 4) language diversity within shared ELNs is extremely variable as they number from 1 to 107 languages, 1 to 7 linguistic groups, and one or both of the two modelled linguistic families (Table 1) and 5) although areas of low ecological risk yield a higher number of top-level linguistic groups, they do not yield a higher number of languages.

Index labels (id) for linguistic groups are given in Fig 1. Number (N) of languages counted from the Glottolog database [27]. Geographical regions are indicated on the map in Fig 6.

Geographic distribution of Eco-Linguistic Niches (ELNs)

Each of the 29 modelled ELNs has a different geographic extent (Table 1 in S1 File). When ELNs are compared to linguistic areas, two types of cases can be distinguished: Either the geographic distribution of the ELN is larger than that of the linguistic area (Fig 2C and 2D) or it largely coincides with the linguistic area (Fig 2A and 2B). Most of the modelled ELNs (22 of the 29 linguistic groups) correspond to the former.

(A) Asmat-Kamoro, (B) Roro, (C) Mek, and (D) New Britain language groups ELNs. Colour shades reflect probability of niche presence. Green colour is used for Trans New Guinean ELNs and blue for Austronesian ELNs. The purple lines delimit linguistic areas. (E) Map of New-Guinea with GS values calculated according to the ecological risk formula (see Materials and Methods). Coulour scale indicates the length of the GS in months. (F-J): ELPs of New-Guinea. Each pattern (Highlands, Center, South, South-East and North) corresponds to the sum of similar Eco-Linguistic Niches according to their environmental space positions and their geographical distribution. Colour shades indicate prediction probabilities. Polygons indicate linguistic areas of modelled linguistic groups. The Highland pattern (F) includes from West to East the West Trans New Guinea, Uhunduni, Mek, Engan, Chimbu-Waghi, Kainantu-Goroka and Angan language groups. The Center pattern (G) includes the Ok and Bosavi, the South pattern (H) the Marind and Gogodola-Suki, the South-East pattern (I) the Mekeo, Roro, Motu and the South-East Papuan, and the North pattern (J) New Britain and New Ireland. Map background generated by using R::Raster—CRAN Repository–public domain software.

In both cases, ELNs can present discontinuities in their geographic distribution, i.e. they include territories that are disconnected from the core region around the respective linguistic area. Typically, in ENM of terrestrial mammals, these distant areas are considered inaccessible (be it because of dispersal barriers to or of sister-species in those areas) and therefore are not taken into account [28]. However, it should be pointed out that the territories in which Austronesian languages are spoken across the Indian and Pacific Oceans, from Madagascar to Polynesia, almost always represent coastal/island habitats, which reflect Austronesian maritime lifeways [29]. They are, on the one hand, separated by large water bodies and, on the other hand, potentially connected by seafaring travel. If maritime connections are taken into account, i.e. when overseas territories of the predicted ELNs can be considered accessible, only four linguistic groups remain cases wherein the geography of ELNs and the linguistic area correspond: Austronesian Trobriand (35) and Motu (39) language groups and two TNG groups, Asmat (09) and Eleman (25).

Geographic overlap between ELNs is observed for most language groups, but non-overlapping ELNs also exist. Similar geographic distributions are observed for language groups occupying, respectively, the Western Highlands (00, 08, 16, 18, 29), the Eastern Highlands (19, 21, 22, 24), the South (12, 28) and the South-East (36, 37). In contrast, no major geographic overlap in ELNs occurs in the four mentioned linguistic groups for which the geographical extends of the ELN and the linguistic area correspond.

Ecological space positions of ELNs

A Principal Component Analysis (PCA) of the ELNs of 20 TNG and the 9 Austronesian language groups reveals six clusters within the available ecological space of NG (Fig 1). The first two components of the PCA comprise 65% of the variability (Fig 1). The first axis (41.67%) represents topography and temperature. The second axis (23.6%) mainly reflects precipitation. The first axis separates the language groups 00, 08, 16, 18, 19, 29 on the one hand and 09, 10, 12, 25, 27, 28, 31–34, 35, 37–39 on the other. At the intersection of these two axes, language groups 11, 15, 20–24, 26, 36 are present. According to the weight of the different environmental variables, the first cluster is characterized by topographic variables (altitude, roughness, terrain ruggedness index and slope) as well as annual and diurnal temperature range, the second by other variables related to temperature.

The second axis splits the language groups located in the middle of axis 1 into three clusters. Language groups 11, 15 and 26 are clearly separated from groups 23, 36 and the remaining groups, i.e. 20–22 and 24, have values closer to zero. The cluster of groups 11, 15, 26 is strongly influenced by precipitation and that of groups 23 and 36 by precipitation seasonality. The second axis also separates groups 37 and 38, and groups 12 and 28, with niches determined by specific seasonality values for rainfall and temperature. It is noteworthy that the nine Austronesian language groups are split into three different ecological spaces. The first space (including groups 31–34 and 39) overlaps with TNG language ecological space positions but shows a wider range along axis 1. In the second ecological space (including groups 36–38), two of the three Austronesian groups do not overlap with any TNG ELN. This is also the case for the single language group (35) in the third ecological space. Hierarchical clustering of Schoener’s D and Hellinger’s distance values reveal clusters (Fig 3, Table 2 in S1 File) almost identical to those identified by the PCA. Exceptions concern Turama-Kikorian, which is clearly separated from Bosavi and Ok, as well as Uhunduni. This may be due, at least for the former language group, to the fact that the ELNM was conducted with a small sample of occurrences. The separate positioning of the former three language groups must, however, be explained by information provided by the third axis and subsequent axes of the PCA. These distance values also allow one to identify the position of the ELNs with values close to zero on the 1st and 2nd axis of the PCA. Group 24 shows proximity to the groups dependent on temperature amplitude and altitude (i.e. groups 00, 08, 16, 18, 19, 29). Group 20 is linked to groups 32 and 26 but shows a greater distance value suggesting it constitutes a separate entity. Finally, groups 21 and 22 cluster together. When the ecological space positions of Austronesian and TNG linguistic families are considered separately, their distinctiveness becomes evident (Fig 4). The distribution of the Austronesian linguistic family is parallel to the second axis of the PCA, which mainly reflects the intensity and seasonality of precipitation. The narrowness of the Austronesian distribution within the first PCA axis indicates that Austronesian linguistic groups have a similar ecological space position with respect to temperature (Fig 5B) and topography (Fig 5C). Within these trends, Austronesian linguistic groups concentrate around three different environmental settings (Fig 4): one with low precipitation (Fig 5A) occupied by three of the four mainland groups (Mekeo, Roro and Motu, Fig 1), one (Manus Island) with comparatively higher GS values (Fig 5D), and one situated around high temperatures (Fig 5A) and low altitudes (Fig 5C) where the remaining, mainly island Austronesian, groups are situated (Fig 1). The distribution of the TNG linguistic family covers a much larger part of the available NG ecological space (Fig 4) apparently preferring higher altitudes (Fig 5C) and higher GS values (Fig 5D) over those environmental settings where most Austronesian distribution points are found (Fig 4).

Distance corresponds to 1 –the overlap score (Table 2 in S9). Values vary between 0 and 1. Low values (purple) correspond to strong overlaps and environmental similarity, high values (dark red) to marked environmental differences. Numbers correspond to the index numbers of language groups given in Fig 1.

(A) Trans New Guinea language family, (B) Austronesian language family. Dots represent the distributions of ELN predictions, and the colour shades depict the number of languages. Grey background corresponds to the available environment in New Guinea. Map background generated by using R::Raster CRAN Repository–public domain software.

Arrows show environmental variable contributions. Environmental variable codes are explained in Table 2. Ellipses represent the inertial distributions for groups belonging to Trans New Guinea (green) and Austronesian language groups (blue). Background colour scales correspond to the sum of annual precipitation (A), annual mean temperature (B), altitude (C) and Growing Season (D). Map background generated by using R::Raster CRAN Repository–public domain software.

Eco-Linguistic Patterns (ELPs)

Combining ecological dimensions and geographic distributions of the modelled ELNs allows for the identification of ELPs, which offers a means to estimate linguistic diversity within an environmental framework instead of within political boundaries or geodetic grids (related to Earth´s geometric shape). As explained previously, an ELP corresponds to a single ELN if the ELN has a specific ecological space positions and geographic distribution, or to several ELNs when these ELNs present similar ecological space positions and geographical distribution. Contrary to ELNs, ELPs exclude geographical areas that are considered inaccessible to the language group.

Comparisons of ecological space positions and geographic distributions of ELNs highlight: 1) similarities between two pairs of Austronesian groups, i.e. groups 33 and 34, whose ELNs cover two islands (New Britain and New Ireland) of the Bismarck Archipelago and a large part of the northern NG main island, and groups 37 and 38, for which predicted ELNs are located in the South East of NG 2) that the Eastern and Western Highlands groups (with TNG languages) can be grouped together based on similar geographic and contiguous ecological positions, with the exception of groups 21 and 22, the ELNs of which have a particular geographic distribution and are situated in the center of the PCA 3) that group 29 can be considered, given its few occurrence points for ELNM, as an outlier 4) that TNG groups 09 and 25 (both are cases in which the geographic extend of the ELN and the linguistic area largely coincide) can be separated even if they occupy a relatively similar environmental space, as each geographic area of a predicted niche can be considered accessible only if the niche is relatively geographically continuous [28] and 5) that the geographic distribution distinguish all Austronesian groups from TNG groups with which they overlap according the first axis of the PCA.

Seventeen ELPs can be identified (Table 1, Fig 2): 10 ELPs correspond to ELNs extending the actual linguistic area to which they refer and 7 ELPs correspond to ELNs coinciding with the linguistic area to which they refer. ELP 1 corresponds to language groups 00, 08, 16, 18, 19, 24, 29, for which ELNs depend on temperature range and altitude, and are located in the Highlands. ELP 2 is mainly influenced by precipitation and unites groups 11 and 15 in the center of NG. ELP 3 is composed of groups 12 and 28 in Southern NG and determined by precipitation seasonality and temperature. ELP 4 brings together groups 23, 36, 37, 38 with ELNs determined mainly by precipitation seasonality, located in the Southeastern part of NG. ELP 5 is composed of groups 33 and 34 with overlapping ELNs in the Bismarck Archipelago and across a large part of Northern NG. This ELP is determined by a range of temperatures and a wide range of precipitation/seasonality values. ELNs of groups 20, 21, 22 with PCA values close to the origin, appear to be determined neither by specific environmental variables nor by similar geographic distributions. Although the environmental conditions of group 26 are very similar to those of groups 11 and 15, its distinct geographic distribution classifies the ELN of this group into a distinct ELP. The remaining ELNs, i.e. groups 09, 10, 25, 27, 31, 32, 35 and 39, are all strongly bound to a very confined temperature-dependent environment, which does not display geographic continuities except for the four TNG groups 09 and 10 in Southwestern NG, and 25 and 27 in the Gulf of Papua at the southern coast. However, group 10 in the swampy lowlands of Southwest NG has a very specific geographic position.

ELPs and language diversity

Counting the linguistic groups included in the same ELP equates to calculating the linguistic diversity on ecological rather than geodetic or administrative criteria. In this way, a linguistic diversity of 1 can be attributed to environments wherein a single linguistic group occupies the full geographic extend of its ELN. ELP 1 comprises seven ELNs meaning that seven linguistic groups share a relatively similar environment, and thus corresponds to a diversity value of 7. In the same way, a diversity value of 2 is found in ELP 2, ELP 3, ELP 5, and a diversity of 4 in ELP 4. The same calculation yields a diversity of 1 to the ELNs of linguistic groups that present limited overlap with others. Notably, only ELP 4 includes both TNG and Austronesian linguistic groups. Also, linguistic diversity in terms of the number of languages per language group(s) included in the same ELP is differs greatly (Table 1).

ELNs and ecological risk

Application of the ecological risk formula to the study area identifies higher GS values, and hence lower ecological risk, in the Highlands, where the highest linguistic group diversity is observed (Figs 2E and 5D). On the other hand, most language groups for which the ELN geographic distribution and the linguistic area largely overlap, occur in areas with lower GS values (higher ecological risk). No correlation emerges between GS values and number of languages (Table 1).

ELNs and environmental suitability

The map superimposing all TNG and Austronesian ELNs (Fig 6) identifies the most suitable areas for each of the two language families, that is, areas with an environment suitable for both families and areas inappropriate for both.

A: Geographic areas in mainland and island New Guinea with relevance to the text. B: Environmental suitability map corresponding to the difference (delta) between the mean predictions of TNG ELNs and Austronesian ELNs calculated with formula ΔELN (cf. Methodology section). Map background generated by using R::Raster CRAN Repository–river shapes obtained from Natural Earth–public domain.

This map predicts much of the geographic distribution of both linguistic families. In the case of the Austronesian language family, there is good correspondence with the Glottolog [27] (Fig 7B and 7C), Muturzikin [30] and Ethnologue maps [31]. In the case of the TNG family, similarity exists with the Ross [19], Ethnologue [31], Muturzikin [30] and Glottolog 2.7 [27] maps (Fig 7). The 3.0 and 3.1 versions of the Glottolog [27] maps correspond less to the ELN prediction for TNG, because their TNG family concept targets the more restrictive Nuclear TNG.

Geographical distribution of the Austronesian (blue) and Trans New Guinean language families according to Ross [19] (A), Glottolog versions 2.7 (B) and 3.0 (C) [27], the selected language groups for which Eco-Linguistic Niche modeling (ELNM) was performed (D) and the results of the ELNM (E). Dots in (B) and (C) correspond to the center of the geographical location of the constituent languages of each language family according to Glottolog versions 2.7 (B) and 3.0 (C) [27]. Map A after Ross 2005 [19] Maps B-E generated by using R::Raster–CRAN Repository–public domain software.

Detailed comparison between predicted ELNs and actual linguistic distribution of Austronesian and TNG language families shows that several areas, not included in the analysis, were predicted to have a potentially favorable environment to accommodate populations speaking a language of the linguistic family identified for these regions, e.g. Yos Sudarso Island (also named Pulau Dolok) at the South Coast of West-NG, where people speak TNG languages, according to Ross [19] (Fig 7A). For “Other Austronesian” languages (41) along the North Coast (e.g. the Austronesian language areas of the Ormu and Tobati speakers west of the Humboldt Bay in the central area of the North Coast, as well as those of the Island of Yapen, south of the Biak Island, and Waropen, a neighboring area on the East Coast of the Cenderawasih Bay, cf. Glottolog 3.0 [27] (Fig 7A). Also, the model correctly indicates that the areas labelled as “Other non-Austronesian NG” languages (30) do not contain groups speaking TNG languages. The “Other non-Austronesian NG” category includes, for example, the languages of the Sepik-Ramu basin and languages of the Ndu group in the central area of the Sepik River Valley both in North-East NG, the languages of the Greater Kwerba family at the mouth of Mamberamo River on the North Coast of West-NG, and Morehead-Wasur and Pahoturi on the South Coast (Fig 6). However, some Austronesian groups inhabit areas not predicted by the model, such as the languages of the Sarmi region on the North Coast of West-NG (Fig 7A).

Taken at the linguistic family level, the Austronesian and TNG ELNs only partly overlap, i.e. only in those regions yielding a null differential of ELN predictions (ΔELN = 0) (Fig 6). This means that some environments are most likely occupied by TNG, others most likely by Austronesians, still others by none or both of these two language families.


8. Estimated combined error

Fig. 13 . Estimated effects of the five main sources of errors discussed in this manuscript on the mean NDVI of 1 ha tundra plots on Qikiqtaruk surveyed in 2016 with a Parrot Sequoia at 50 m flight altitude (5 cm GSD). The estimates are presented here with the purpose of giving the reader a feel for the relative importance of the sources of error discussed in this manuscript.


צפו בסרטון: חקר מצולעים (אוֹקְטוֹבֶּר 2021).