Training Calendar

An Introduction to Machine Learning using Stata - Co-développé avec l'Université de Lancaster (en anglais)

Online 2 days (11th October 2021 - 12th October 2021) Stata Introductory
Automation, Programming, Statistics

Présenté par Dr. Giovanni Cerulli

Aperçu:

Ces dernières années ont vu une disponibilité sans précédent d'informations sur les phénomènes sociaux, économiques et liés à la santé. Les chercheurs, les praticiens et les décideurs ont désormais accès à d'énormes ensembles de données (appelés «Big Data») sur les personnes, les entreprises et les institutions, le Web et les appareils mobiles, les satellites, etc., à une vitesse et avec des détails croissants.

Le Machine Learining est une approche relativement nouvelle de l'analyse des données, qui se situe à l'intersection entre les statistiques, l'informatique et l'intelligence artificielle. Son objectif principal est de transformer l'information en connaissance et en valeur en «laissant parler les données». Le Machine Learning limite les hypothèses antérieures sur la structure des données et repose sur une philosophie sans modèle prenant en charge le développement d'algorithmes, les procédures de calcul et l'inspection graphique plus que des hypothèses strictes, le développement algébrique et des solutions analytiques.Impossible il y a quelques années, le Machine Learning est désormais un produit de l’ère du temps, avec une puissance de calcul et une capacité d’apprentissage des indiscutables.

Ce cours est une introduction aux techniques du Machine Learning utilisant Stata. Aujourd'hui, divers packages de Machine Learning sont disponibles dans Stata, mais certains d'entre eux ne sont pas connus de tous les utilisateurs. Ce cours comble cette lacune en familiarisant les participants avec le potentiel de Stata à tirer des connaissances et de la valeur à partir de tables de données volumineuses et éventuellement bruyantes. L'approche pédagogique sera basée sur le langage graphique et l'intuition plus que sur l'algèbre. Les sessions utiliseront des exemples pédagogiques ainsi que des exemples concrets et équilibreront les sessions théoriques et pratiques de manière égale.

Après le cours, les participants devraient avoir une meilleure compréhension du potentiel de Stata pour mettre en pratique le Machine Learning, et devenant être capables de maîtriser des tâches de recherche, notamment:

  • détection de l'importance des facteurs,
  • extraction du signal à partir du bruit,
  • spécification correcte du modèle,
  • classification sans modèle, tant du point de vue de l'exploration de données que du point de vue causal.

Horaire des cours

Session du matin Session de l'après-midi Questions et réponses avec l'instructeur
10h - 12h (heure London) 14h - 16h (heure London) 16h - 16h30 (heure London)

Agenda des cours

JOUR 1:

  • 1. Les bases du Machine Learning
  • Machine Learning: définition, rationnel, utilité
  • Apprentissage supervisé vs non supervisé
  • Problèmes de régression ou de classification
  • Inférence vs prédiction
  • Erreur d'échantillonnage ou de spécification
  • Faire face à la non-identifiabilité fondamentale de E (y | x)
  • Modèles paramétriques et non paramétriques
  • Le compromis entre la précision des prévisions et l'interprétabilité du modèle
  • Mesures de qualité d'ajustement
  • Mesure de la qualité de l'ajustement: puissance de prédiction dans l'échantillon vs hors échantillon
  • Le compromis entre biais-variance et la minimisation de l'erreur quadratique moyenne (MSE)
  • Erreur quadratique moyenne entre entraînement et test
  • L'approche des critères d'information
  • Machine Learning et intelligence artificielle
  • L'intégration Stata / Python: un aperçu

2. Méthodes de rééchantillonnage et de validation

  • Estimation de l'erreur d'entraînement et de test
  • Validation
  • L'approche des ensembles de validation
  • Erreur quadratique moyenne d'entraînement et de test
  • Validation croisée
  • Validation croisée en K
  • Validation croisée sans réponse
  • Amorcer
  • L'algorithme bootstrap
  • Bootstrap vs validation croisée à des fins de validation

3. Sélection et régularisation du modèle

  • Sélection du modèle comme procédure de spécification correcte
  • L'approche des critères d'information
  • Sélection de sous-ensemble
  • Meilleure sélection de sous-ensembles
  • Sélection pas à pas vers l'arrière
  • Sélection par étapes en avant
  • Méthodes de rétrécissement
  • Lasso et Ridge, et régression élastique
  • Lasso adaptatif
  • Critères d'information et validation croisée pour Lasso
  • Implémentation Stata

JOUR 2:

4. Analyse discriminante et classification du plus proche voisin

  • Le cadre de classification
  • Classificateur optimal de Bayes et limite de décision
  • Taux d'erreur de classification erronée
  • Analyse discriminante
  • Analyse discriminante linéaire et quadratique
  • Classificateur Naive Bayes
  • Le classificateur des K voisins les plus proches
  • Implémentation Stata

5. Régression non paramétrique

  • Au-delà des modèles paramétriques: un aperçu
  • Approches locales, semi-globales et globales
  • Méthodes locales
  • Régression basée sur le noyau
  • Régression du voisin le plus proche
  • Méthodes semi-globales
  • Fonction pas à pas constante
  • Polynômes par morceaux
  • Régression spline
  • Méthodes globales
  • Estimateurs polynomiaux et séries
  • Modèles partiellement linéaires
  • Modèles additifs généralisés
  • Implémentation Stata

Principaux textes pour la lecture avant et après le cours: Alan C. Acock. 2018. Une introduction douce à Stata, sixième édition. Texas: Stata Press.

Angrist, Joshua & Jörn-Steffen Pischke (2014) Maîtriser les métriques: le chemin de la cause à l’effet. New Jersey: Princeton University Press.

  • Inscriptions des étudiants : Les participants doivent fournir une preuve de statut d'étudiant à temps plein au moment de la réservation pour se qualifier pour le taux d'inscription des étudiants (carte d'identité d'étudiant valide ou lettre d'inscription autorisée).
  • Des réductions supplémentaires sont disponibles pour plusieurs inscriptions.
  • Les délégués reçoivent des licences temporaires pour les logiciels utilisés dans le cours et seront chargés de télécharger et d'installer le logiciel avant le début du cours. (Alternativement, nous pouvons également fournir gratuitement des ordinateurs portables aux délégués présents).
  • Paiement des frais de cours requis avant la date de début du cours.
  • L'inscription se termine 5 jours civils avant le début du cours.
  • Frais de 100% retournés pour les annulations faites plus de 28 jours civils avant le début du cours.
  • Frais de 50% retournés pour les annulations faites 14 jours civils avant le début du cours.
  • Aucun frais n'est remboursé pour les annulations faites moins de 14 jours civils avant le début du cours.
  • Le nombre de délégués est limité. Veuillez-vous inscrire tôt pour garantir votre place.
    •  CommercialAcademicStudent
      Pass deux jours (11/10/2021 - 12/10/2021)

    All prices exclude VAT or local taxes where applicable.

    * Champs obligatoires

    0 €
    Post your comment

    Timberlake Consultants