En qualité de partenaire Google Cloud, nous partagerons nos années d’expérience dans le secteur pour vous aider à renforcer votre utilisation de Google Cloud Platform et à obtenir la certification « Professional Data Engineer ».
Jellyfish a été sélectionné par Google pour construire et délivrer cette formation de quatre jours.
Grâce à une combinaison de présentations, de démonstrations et de travaux pratiques, vous apprendrez à concevoir des systèmes de traitement de données, à construire des pipelines de données de bout en bout, à analyser des données et à effectuer un apprentissage automatique.
La formation traite des données structurées, non structurées et en flux continu.
Cette formation de quatre jours consécutifs est proposée en classe virtuelle. Elle peut être dispensée dans un site de votre choix.
Aperçu du cours
À qui s’adresse cette formation ?
Cette formation est destinée aux développeurs expérimentés responsables de la gestion des transformations de Big Data, notamment :
- Extraction, chargement, transformation, nettoyage et validation des données
- Conception de pipelines et d’architectures pour le traitement des données
- Création et maintenance de modèles statistiques et d’apprentissage automatique
- Interrogation d’ensembles de données, visualisation des résultats des requêtes et création de rapports
Vous repartirez avec les compétences nécessaires pour :
- Concevoir et construire des systèmes de traitement des données sur Google Cloud Platform
- Exploiter des données non structurées à l’aide des API Spark et ML sur le Cloud Dataproc
- Traiter des données par lots et en continu grâce à la mise en œuvre de pipelines de données à échelle automatique sur Cloud Dataflow
- Tirer des informations commerciales de très grands ensembles de données en utilisant Google BigQuery
- Former, évaluer et prédire à l’aide de modèles d’apprentissage automatique avec TensorFlow et Cloud ML
- Obtenir des informations instantanées à partir de données en continu
Prérequis
Pour optimiser cette formation, vous devez posséder les connaissances suivantes :
- Avoir suivi la formation Fondamentaux de Google Cloud : Big Data et Machine Learning, ou posséder une expérience équivalente
- Maîtriser les bases d’un langage de requêtes courant tel que SQL
- Avoir de l'expérience en matière de modélisation de données, d’extraction, de transformation et de chargement des activités
- Développer des applications utilisant un langage de programmation courant tel que Python
- Connaître le domaine du Machine Learning et/ou des statistiques
Programme de la formation
- Découvrer le rôle d’un ingénieur de données
- Analyser les défis de l’ingénierie des données
- Introduction a BigQuery
- Data Lakes et Data Warehouses
- Démonstration : Requêtes fédérées avec BigQuery
- Bases de données transactionnelles ou entrepôts de données
- Démonstration du site web : Trouver des PII dans votre ensemble de données avec l’API DLP
- Établir un partenariat efficace avec d’autres équipes de données
- Gérer l’accès aux données et la gouvernance
- Construire des pipelines prêts pour la production
- Examiner l’étude de cas sur les clients de GCP
- Atelier : Analyser des données avec BigQuery
- Introduction aux Data Lakes
- Options de stockage des données et ETL sur GCP
- Construction d’un Data Lake avec Cloud Storage
- Démonstration facultative : Optimiser les coûts avec les classes de Google Cloud Storage et les fonctions Cloud
- Sécuriser Cloud Storage
- Stockage de tous les types de données
- Démonstration vidéo : Exécution de requêtes fédérées sur les fichiers Parquet et ORC dans BigQuery
- Cloud SQL en tant que Data Lake relationnel
- Atelier : Chargement des Taxi Data dans SQL Cloud
- L’entrepôt de données moderne
- Introduction à BigQuery
- Démonstration : Interrogation de plusieurs térabits de données en quelques secondes
- Premiers pas
- Chargement des données
- Démonstration vidéo : Effectuer une requête sur le SQL Cloud de BigQuery
- Atelier : Chargement des données dans BigQuery
- Explorer les schémas
- Démonstration : Explorer les ensembles de données publiques BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
- Conception du schéma
- Champs imbriqués et répétés
- Démonstration : Champs imbriqués et répétés dans BigQuery
- Atelier : Travailler avec JSON et les données Array dans BigQuery
- Optimiser avec le classement et le regroupement
- Démonstration : Tableaux classés et regroupés dans BigQuery
- Aperçu : Transformation des données par lots et en continu
- EL, ELT, ETL
- Considérations relatives à la qualité
- Comment procéder à des opérations dans BigQuery
- Démonstration : ELT pour améliorer la qualité des données dans BigQuery
- Lacunes
- ETL pour résoudre les problèmes de qualité des données
- L’écosystème Hadoop
- Exécuter Hadoop sur Cloud Dataproc
- GCS plutôt que HDFS
- Optimisation de Dataproc
- Atelier : Exécution des jobs Apache Spark sur Cloud Dataproc
- Cloud Dataflow
- Pourquoi les clients apprécient Dataflow
- Pipelines Dataflow
- Atelier : Un simple pipeline Dataflow (Python/Java)
- Atelier : MapReduce sur Dataflow (Python/Java)
- Atelier : Saisies latérales (Python/Java)
- Modèles Dataflow
- Dataflow SQL
- Construire visuellement des pipelines de données par lots avec Cloud Data Fusion
- Composants
- Vue d'ensemble de l’interface utilisateur
- Créer un pipeline
- Explorer les données avec Wrangler
- Atelier : Création et exécution d’un graphique de pipeline dans Cloud Data Fusion
- Structurer le travail entre les services GCP avec Cloud Composer
- Environnement Apache Airflow
- DAG et opérateurs
- Planification des flux de travail
- Démonstration longue facultative : Chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage et BigQuery
- Surveillance et enregistrement
- Atelier : Introduction à Cloud Composer
- Processing Streaming Data
- Cloud Pub/Sub
- Atelier : Publier des données en continu dans Pub/Sub
- Fonctionnalités de streaming de Cloud Dataflow
- Atelier : Pipelines de données en streaming
- Fonctionnalités de streaming BigQuery
- Atelier : Analyses et tableaux de bord de streaming
- Cloud Bigtable
- Atelier : Pipelines de données en streaming dans Bigtable
- Fonctions de fenêtre analytique
- Utilisation avec des clauses
- Fonctions GIS
- Démonstration : Cartographier les codes postaux de plus en plus nombreux avec BigQuery GeoViz
- Considérations en matière de performance
- Atelier : Optimiser les performances de vos requêtes BigQuery
- Atelier facultatif : Création de tableaux classés par date dans BigQuery
- Qu’est-ce que l’IA ?
- De l’analyse ad hoc des données à la prise de décision data-driven
- Options pour les modèles ML sur GCP
- Les données non structurées sont complexes
- API ML pour améliorer les données
- Atelier : Utilisation de Natural Language API pour classer les textes non structurés
- Qu’est-ce qu’un notebook ?
- BigQuery Magic et Ties to Pandas
- Atelier : BigQuery dans Jupyter Labs sur AI Platform
- Manières d’effectuer du Machine Learning sur GCP
- Kubeflow
- AI Hub
- Atelier : Exécution de modèles d’IA sur Kubeflow
- BigQuery ML pour la création rapide de modèles
- Démonstration : Former un modèle avec BigQuery ML pour prévoir les tarifs de taxi à New York
- Modèles recommandés
- Atelier Option 1 : Prévoir la durée d’un trajet à vélo avec un modèle de régression sur BQML
- Atelier Option 2 : Recommandations de films avec BigQuery ML
- Pourquoi Auto ML ?
- Vision Auto ML
- Auto ML NLP
- Tableaux Auto ML