Analytics Engineering
Blog
BigQuery FinOps

BigQuery FinOps

Hamis Badarou
September 2, 2023
5 min read

BigQuery est le Data Warehouse des équipes Data Marketing par défaut . Son intégration avec tout la suite Google Marketing Platform ( GA4 , Adwords , Search Console , etc ) fait qu’il est le choix par défaut pour creuser les données issues de ces différences. C’est l’une des briques indispensables pour mettre en place une data stack moderne. Mais, comme c'est le cas avec tout service basé sur le cloud, BigQuery coûte de l'argent. Et sans une gestion adéquate, les dépenses excessives peuvent vite devenir un problème.   53% des répondant au sondage Sondage Oomnitza de 2023, ont dépensé au moins 10% de leur budget annuel sur des ressources cloud sous-utilisées, non gérées ou inutilisées; 19% ont gaspillé au moins 20% de leur budget.

C'est une quantité significative d’argent gaspillés qui pourrait être mieux utilisée pour d'autres priorités business. Avec l'adoption croissante de services cloud comme BigQuery, il est crucial pour vous de mettre en œuvre des stratégies d'optimisation des coûts pour vous assurer que vous ne dépensez pas trop en ressources cloud.

Bien qu’on pense que le coût du stockage est bon marché, ce qui n'est pas entièrement faux. Selon Backblaze,, le coût par Gigaoctet a chuté de 90% depuis 2009. Cela signifie-t-il que nous dépenserons de moins en moins d'argent pour le stockage? Non, la vérité est que la croissance du volume de données a explosé en 10 ans avec une augmentation de 1900%, et le prix du stockage a stagné ces cinq dernières années. Avec l'inflation en cours, de nombreux fournisseurs ont même augmenté leurs prix de stockage pour 2023. Alors, assurez-vous d'avoir un tableau de bord de suivi des coût en quasi temps réel pour suivre vos dépenses BigQuery.

Chez Hanalytics , nous mettons en place trois éléments de suivi de coûts pours nos clients :

  • Analyse de toutes les requêtes BigQuery : Permet de détecter les requêtes les plus gourmandes en ressources et en coût pour leur optimisation
  • Analyse de toutes les tables disponibles dans BigQuery : Permet d’identifier les tables obsolètes et de cleaner régulièrement les datasets
  • Alerting : Définir une budget quotidien à ne pas dépasser puis pousser une alerte via slack ou teams aux équipes lorsque ce budget quotidien est dépassé.

Suite à cette analyse , nous optimisons les tables en appliquant les recommandations Google :

  1. Partitionnement de table : BigQuery vous permet de diviser vos tables en plus petites, appelées partitions, sur la base d'une certaine colonne. Cela peut réduire considérablement les coûts, car lorsque vous exécutez une requête, BigQuery ne scanne que les partitions pertinentes.
  2. Clustering : Permet de regrouper les données similaires dans les blocs de stockage, ce qui permet à BigQuery de traiter moins de données lors de l'exécution de requêtes. Cela peut réduire considérablement les coûts et améliorer la vitesse des requêtes. Pour tirer le meilleur parti du clustering, il est important de choisir une colonne de clustering qui est souvent utilisée dans les filtres de vos requêtes.
  3. Regroupement de tables : En plus du partitionnement, BigQuery propose le regroupement de tables. Cela permet à BigQuery d'organiser les données d'une manière qui optimise l'exécution des requêtes et réduit les coûts.
  4. Suppression des données non utilisées : Il est important de surveiller régulièrement vos tables BigQuery et de supprimer celles qui ne sont plus utilisées.
  5. Optimisation des requêtes : L'exécution de requêtes inefficaces peut coûter cher. Il est donc essentiel d'optimiser vos requêtes pour qu'elles soient aussi efficaces que possible.
  6. Utilisation de l'aperçu : BigQuery propose une fonctionnalité d'aperçu qui vous permet de voir un échantillon de vos données sans avoir à exécuter une requête complète. Cela peut vous aider à économiser de l'argent en évitant des requêtes coûteuses.

Le dashboard suivant :

Besoin d’aide pour vous assurez de maitriser vos coûts BigQuery ? N'hésitez pas à contacter notre équipe. Nous sommes là pour vous aider à optimiser vos coûts et à tirer le meilleur parti de votre utilisation de BigQuery.

Partagez l'article

Autres articles

Analytics Engineering

Modern Data Stack : Qu'est ce qu'un process ELT

Le processus ELT est fréquemment utilisé pour transférer les données d'une source de données à une autre, utilisé pour intégrer les données de plusieurs sources en une seule vue,
Hamis Badarou
October 27, 2023
5 min read
Analytics Engineering

Modern Data Stack : Hightouch l'outil Reverse ETL solide et efficace

Hightouch offre une grande flexibilité et une personnalisation complète de la plateforme selon les besoins de chaque entreprise.
Linh-Quan HA
October 27, 2023
5 min read
Analytics Engineering

Marketing Modern Data Stack : Funnel.io l'outil d'ingestion des données marketing de référence

Funnel.io est une plateforme d'analyse de données marketing qui permet aux entreprises de collecter des données provenant de divers sources
Hamis Badarou
October 27, 2023
5 min read