Ne manquez pas Inspire 2024, qui aura lieu du 13 au 16 mai 2024 au Venetian de Las Vegas. Inscrivez-vous !

 

L'été SQL : série de questions-réponses avec Joe Hellerstein

Après une période de calme, SQL est de retour en force cet été.

Pour comprendre pourquoi, nous avons posé une série de questions à Joe Hellerstein, professeur d'informatique à l'Université de Californie à Berkeley et cofondateur de Trifacta.

Dans cette série, découvrez pourquoi SQL est de retour, à quoi ressemble l'ingénierie moderne des données dans le cloud avec l'accélération des entrepôts cloud, et pourquoi l'ETL devient ELT.

 
 

SQL le retour

Au cours des premières décennies du millénaire, l'approche centrée sur Java avait le vent en poupe, mais SQL est revenu en force. Aujourd'hui, SQL semble être au centre de toutes les conversations sur l'ingénierie des données et occupe une place de choix dans la Silicon Valley. 

La comparaison des deux approches conduit inévitablement à se demander laquelle est meilleure. L'une comme l'autre présente des avantages et des inconvénients. 

En savoir plus
L'été de SQL - Épisode 1

SQL le retour

Au cours des premières décennies du millénaire, l'approche centrée sur Java avait le vent en poupe, mais SQL est revenu en force. Aujourd'hui, SQL semble être au centre de toutes les conversations sur l'ingénierie des données et occupe une place de choix dans la Silicon Valley. 

La comparaison des deux approches conduit inévitablement à se demander laquelle est meilleure. L'une comme l'autre présente des avantages et des inconvénients. 

En savoir plus
 
 

Pipelines SQL et ELT

L'ELT attire de plus en plus de nos jours. Les entrepôts de données modernes sont flexibles et de plus en plus rentables, ce qui nous permet de stocker de grands volumes de données, même les données sales qui incluent énormément de textes et d'images. Dans cet environnement, les transformations se produisent dans l'entrepôt de données, où le langage natif est SQL. 

En savoir plus
L'été de SQL - Épisode 2

Pipelines SQL et ELT

L'ELT attire de plus en plus de nos jours. Les entrepôts de données modernes sont flexibles et de plus en plus rentables, ce qui nous permet de stocker de grands volumes de données, même les données sales qui incluent énormément de textes et d'images. Dans cet environnement, les transformations se produisent dans l'entrepôt de données, où le langage natif est SQL. 

En savoir plus
 
 

Transformation : le SQL prend du galon

Lorsque nous utilisons SQL pour la transformation (le « T » de ELT), tout est différent. Dans ce cas, nous prenons de nombreuses tables désordonnées et disparates et les manipulons pour les transformer en quelque chose de plus utilisable ou plus courant. Pour reprendre l'exemple précédent, nous pouvons extraire et charger des données de vente de 17 chaînes de magasins qui ont vendu les téléphones, et notre travail en SQL consiste à écrire des requêtes de transformation qui intègrent ces données.

En savoir plus
L'été de SQL - Épisode 3

Transformation : le SQL prend du galon

Lorsque nous utilisons SQL pour la transformation (le « T » de ELT), tout est différent. Dans ce cas, nous prenons de nombreuses tables désordonnées et disparates et les manipulons pour les transformer en quelque chose de plus utilisable ou plus courant. Pour reprendre l'exemple précédent, nous pouvons extraire et charger des données de vente de 17 chaînes de magasins qui ont vendu les téléphones, et notre travail en SQL consiste à écrire des requêtes de transformation qui intègrent ces données.

En savoir plus
 
 

Retour à SQL : ingénierie des données

Dans le cadre de la croissance de notre nouveau programme de Data Science à Berkeley, il est devenu évident que nous devions cibler une classe spécifiquement pour l'ingénierie des données. Les objectifs de l'ingénierie des données sont différents de ceux de l'ingénierie logicielle. Il était donc intéressant de réfléchir à ce programme et à la façon dont nous l'enseignerions différemment des cours de base de données existants.

Dans cette nouvelle approche, nous avons fini par mettre l'accent sur quatre étapes de SQL pour l'ingénierie des données qui sont atypiques d'une classe de bases de données traditionnelles : la qualité des données, le remodelage des données, les tâches de feuille de calcul et les tests de pipeline de données.

En savoir plus
L'été de SQL - Épisode 4

Retour à SQL : ingénierie des données

Dans le cadre de la croissance de notre nouveau programme de Data Science à Berkeley, il est devenu évident que nous devions cibler une classe spécifiquement pour l'ingénierie des données. Les objectifs de l'ingénierie des données sont différents de ceux de l'ingénierie logicielle. Il était donc intéressant de réfléchir à ce programme et à la façon dont nous l'enseignerions différemment des cours de base de données existants.

Dans cette nouvelle approche, nous avons fini par mettre l'accent sur quatre étapes de SQL pour l'ingénierie des données qui sont atypiques d'une classe de bases de données traditionnelles : la qualité des données, le remodelage des données, les tâches de feuille de calcul et les tests de pipeline de données.

En savoir plus