"m2b" package in r: Deriving multiple variables from movement data to predict behavioural states with random forests. Issue 6 (14th March 2018)
- Record Type:
- Journal Article
- Title:
- "m2b" package in r: Deriving multiple variables from movement data to predict behavioural states with random forests. Issue 6 (14th March 2018)
- Main Title:
- "m2b" package in r: Deriving multiple variables from movement data to predict behavioural states with random forests
- Authors:
- Thiebault, Andréa
Dubroca, Laurent
Mullers, Ralf H.E.
Tremblay, Yann
Pistorius, Pierre A. - Editors:
- Goslee, Sarah
- Abstract:
- Abstract: The behaviour of individuals affect their distributions and is therefore fundamental in determining ecological patterns. While, the direct observation of behaviour is often limited due to logistical constraints, collection of movement data has been greatly facilitated through the development of bio‐logging. Movement data obtained through tracking instrumentation may potentially constitute a relevant proxy to infer behaviour. To infer behaviour from movement data is a key focus within the "movement ecology" discipline. Statistical learning constitutes a number of methods that can be used to assess the link between given variables from a fully informed training dataset and then predict the values on a non‐informed variable. We chose the random forest algorithm for its high prediction accuracy and its ease of implementation. The strength of random forest partly lies in its ability to handle a very large number of variables. Our methodology is accordingly based on the derivation of multiple predictor variables from movement data over various temporal scales, to capture as much information as possible from changes and variations in movement. The methodology is described in four steps, using examples on foraging seabirds and fishing vessels for illustration. The models showed very high prediction accuracy (92%–97%), thereby confirming the influence of behaviour on movement decisions and demonstrating the ability to derive multiple variables from movement data to predictAbstract: The behaviour of individuals affect their distributions and is therefore fundamental in determining ecological patterns. While, the direct observation of behaviour is often limited due to logistical constraints, collection of movement data has been greatly facilitated through the development of bio‐logging. Movement data obtained through tracking instrumentation may potentially constitute a relevant proxy to infer behaviour. To infer behaviour from movement data is a key focus within the "movement ecology" discipline. Statistical learning constitutes a number of methods that can be used to assess the link between given variables from a fully informed training dataset and then predict the values on a non‐informed variable. We chose the random forest algorithm for its high prediction accuracy and its ease of implementation. The strength of random forest partly lies in its ability to handle a very large number of variables. Our methodology is accordingly based on the derivation of multiple predictor variables from movement data over various temporal scales, to capture as much information as possible from changes and variations in movement. The methodology is described in four steps, using examples on foraging seabirds and fishing vessels for illustration. The models showed very high prediction accuracy (92%–97%), thereby confirming the influence of behaviour on movement decisions and demonstrating the ability to derive multiple variables from movement data to predict behaviour with random forests. The codes developed for this methodology are published in the "m 2b " (Movement to Behaviour) r package, available at https://CRAN.R-project.org/package=m2b . They can be used and adapted to datasets where movement was sampled from a wide range of taxa, sampling schemes or tracking devices. Observations are needed for a subset of the data, but once the model is trained, it can be used on any dataset with similar movement data. Résumé: Le comportement des individus influence leurs distributions spatiales et, par conséquent, est essentiel à l'étude des patterns écologiques. L'observation directe de ces comportements est souvent limitée par des difficultés logistiques. Au contraire la collecte de données de déplacement est grandement facilitée par le développement du bio‐logging. Les données collectées grâce à des enregistreurs embarqués peuvent ainsi être utilisées comme proxy pour étudier le comportement des individus en déplacement. L'inférence de comportements à partir de données de déplacements constitue un point central en écologie du déplacement. Les méthodes statistiques d'apprentissage peuvent être utilisées pour étudier et identifier le lien entre des variables liées au déplacement et des observations de comportement associées. Un fois ce lien identifié il est possible de prédire les comportements sur d'autres jeux de données sans observation. Parmi les méthodes existantes nous avons choisi les forêts aléatoires du fait de leur grande capacité de prédiction et de leur simplicité d'utilisation. La force des forêts aléatoires tient en partie dans leur capacité à manier un grand nombre de variables. La méthode que nous avons développée est ainsi basée sur la dérivation d'un grand nombre de variables de prédiction à partir des données de déplacement, afin d'intégrer sans à priori le plus d'information possible sur les variations du déplacement de l'individu étudié. Notre méthode est décrite en quatre étapes, à l'aide d'exemples d'utilisation sur des données d'oiseaux marins et de pêcheries. Les modèles présentés ont un fort pouvoir de prédiction (de 92% à 97%). Ces résultats confirment d'une part le lien entre comportement et déplacement d'un individu, et d'autre part l'efficacité de notre méthode. Les codes développés sont publiés dans le paquet R intitulé «m2b» («Movement to Behaviour», du déplacement au comportement), disponible en ligne sur https://CRAN.R-project.org/package=m2b . Ces codes peuvent être utilisés et adaptés à des jeux de données sur toutes sortes de taxons, collectés à différents taux d'échantillonnage à l'aide d'une variété d'enregistreurs. Des observations sont nécessaires pour une partie des données, mais une fois le modèle entraîné il peut être utilisé sur tout jeu de donné présentant des données de déplacement similaires. … (more)
- Is Part Of:
- Methods in ecology and evolution. Volume 9:Issue 6(2018)
- Journal:
- Methods in ecology and evolution
- Issue:
- Volume 9:Issue 6(2018)
- Issue Display:
- Volume 9, Issue 6 (2018)
- Year:
- 2018
- Volume:
- 9
- Issue:
- 6
- Issue Sort Value:
- 2018-0009-0006-0000
- Page Start:
- 1548
- Page End:
- 1555
- Publication Date:
- 2018-03-14
- Subjects:
- Cape gannet -- fisheries -- GPS -- local enhancement -- machine learning -- onboard observers -- social interactions -- video cameras
Ecology -- Periodicals
Evolution -- Periodicals
577 - Journal URLs:
- http://onlinelibrary.wiley.com/journal/10.1111/(ISSN)2041-210X ↗
http://onlinelibrary.wiley.com/ ↗ - DOI:
- 10.1111/2041-210X.12989 ↗
- Languages:
- English
- ISSNs:
- 2041-210X
- Deposit Type:
- Legaldeposit
- View Content:
- Available online (eLD content is only available in our Reading Rooms) ↗
- Physical Locations:
- British Library DSC - BLDSS-3PM
British Library HMNTS - ELD Digital store - Ingest File:
- 17492.xml