L'IA a changé la façon dont les entreprises envisagent les plateformes de données.
L'objectif n'est plus seulement l'analyse et l'établissement de rapports. Les données doivent être en temps réel, interopérables et suffisamment fiables pour alimenter les systèmes de GenAI sans introduire de risques en termes de coûts ou de conformité. C'est pourquoi les formats de table ouverts tels qu'Apache Iceberg, Delta Lake et Apache Hudi sont aujourd'hui au premier plan.
Au lieu d'une nouvelle vague d'enfermement propriétaire, nous voyons les entreprises adopter des normes ouvertes et des piles modulaires qui leur donnent de la flexibilité et du contrôle. Mais il ne suffit pas de connaître le nom de ces technologies. Ce qui compte, c'est la manière dont elles s'associent pour créer une base prête pour l'IA.
Pourquoi les formats de table ouverts gagnent-ils du terrain ?
Pendant des années, les entreprises ont été confrontées à une lutte acharnée entre les lacs de données et les entrepôts de données. Les lacs leur donnaient de l'ampleur mais pas de structure. Les entrepôts leur offraient une structure, mais à un coût élevé. Les formats de table tels qu'Iceberg, Delta et Hudi comblent cette lacune en superposant schéma, versionnement et gouvernance à un stockage bon marché et évolutif.
Le résultat :
- Cohérence des données à travers les pipelines de streaming et de batch.
- Interopérabilité entre les outils, afin de ne pas être enfermé dans l'écosystème d'un seul fournisseur.
- Gouvernance intégrée dans la couche des tables, avec des fonctionnalités telles que les pistes d'audit et les voyages dans le temps.
Cette évolution est particulièrement importante pour l'IA. Les modèles n'ont pas seulement besoin de beaucoup de données - ils ont besoin de données de haute qualité, bien gouvernées, qui peuvent être tracées et mises à jour en permanence.
La place de la diffusion en continu
Les formats de table ne résolvent qu'une partie du problème. L'autre moitié est la vitesse. Les agents d'IA et les copilotes ont besoin d'entrées en temps réel, qu'il s'agisse de données de transaction, de règles de conformité ou de mises à jour sur les clients. C'est pourquoi les entreprises font converger les piles lakehouse et streaming.
Les pipelines modernes combinent Iceberg/Delta/Hudi avec des technologies telles que Kafka, Flink ou Spark Structured Streaming. Ensemble, ils fournissent :
- Fraîcheur de sorte que les modèles n'agissent jamais sur la base de données obsolètes.
- Fiabilité avec l'évolution des schémas et la gestion des erreurs.
- Évolutivité de traiter les pics de demande sans interrompre les systèmes en aval.
Pour les entreprises basées sur l'IA, il ne s'agit pas d'un avantage. C'est la différence entre un assistant qui aide et un assistant qui commet des erreurs coûteuses.
Vous avez besoin d'aide pour mettre en place des pipelines de données de type "streaming-first" ? Nous pouvons vous mettre en relation avec ingénieurs et architectes en données contractuels qui se spécialisent dans Iceberg, Delta, Hudi et Kafka.
La couche de gouvernance : Au-delà de la conformité
L'adoption de l'IA a mis la gouvernance sous les feux de la rampe. Les régulateurs demandent de plus en plus aux entreprises comment elles gèrent les données de formation et d'inférence, et les clients attendent de la transparence. Les formats de table ouverts offrent une auditabilité au niveau du stockage, mais la gouvernance ne s'arrête pas là.
Les entreprises tournées vers l'avenir ajoutent :
- Catalogues unifiés qui offrent une vue unique des données disponibles dans l'ensemble de l'entreprise.
- Couches sémantique et métrique qui normalisent la façon dont les données sont définies et consommées.
- Contrôles d'accès qui correspondent à des rôles professionnels, et pas seulement à des autorisations techniques.
Cette combinaison garantit que lorsqu'un modèle d'IA extrait des données, les dirigeants peuvent répondre à des questions cruciales : D'où viennent ces données ? À qui appartiennent-elles ? Peut-on les utiliser en toute sécurité dans ce contexte ?
Une perspective différente : Le rapport coût-efficacité
Au-delà de la précision et de la conformité, les formats ouverts offrent une chose à laquelle les responsables financiers sont très attachés : la prévisibilité. En séparant le calcul du stockage et en adoptant des normes ouvertes, les entreprises peuvent éviter le verrouillage des fournisseurs et rechercher les solutions les plus rentables.
Cette flexibilité devient essentielle à mesure que les charges de travail d'IA dépassent les budgets. Le stockage d'ensembles d'entraînement massifs ou l'inférence à l'échelle nécessitent une plateforme de données qui ne gonfle pas les coûts à chaque fois que l'utilisation augmente. Iceberg, Delta et Hudi font partie de la solution, mais seulement si elles sont mises en œuvre en gardant à l'esprit la gouvernance des coûts.
Vous cherchez à aligner la stratégie de données d'IA sur le contrôle financier ? Le groupe Tenth Revolution aide les entreprises à recruter des ingénieurs de données compétents en matière de FinOps qui allient expertise technique et connaissance des coûts.
Ce sur quoi les dirigeants doivent se concentrer aujourd'hui
Si vous êtes directeur financier, directeur des systèmes d'information ou directeur des données, le défi n'est pas seulement de choisir le bon format. Il s'agit de construire une plateforme capable d'évoluer à mesure que l'adoption de l'IA s'accélère. Trois étapes peuvent vous aider :
- Adopter un format de table ouvert. Que vous choisissiez Iceberg, Delta ou Hudi, choisissez-en un et imposez-le comme norme à l'échelle de l'entreprise. La fragmentation ne fera que vous ralentir.
- Investir dans des pipelines en temps réel. Le traitement par lots ne suffit plus. Donnez la priorité aux architectures de streaming qui s'intègrent de manière transparente à votre chalet.
- Intégrer la gouvernance dès le premier jour. Les catalogues, les couches sémantiques et les contrôles d'accès basés sur les rôles doivent faire partie de votre architecture de base, et non pas être ajoutés.
Grâce à ces priorités, votre organisation ne se contentera pas de suivre l'évolution de l'IA, elle sera prête à la faire évoluer de manière responsable.


