What is Data Fabric?
À medida que os dados se tornam cada vez mais complexos e distribuídos, novas técnicas de gerenciamento de dados surgiram para enfrentar os desafios que os acompanham. Uma dessas técnicas é chamada de "data fabric", que a Gartner nomeou como uma das principais Dez tendências de tecnologia de dados e analytics para 2021para executar um fluxo de trabalho, que
O que é data fabric?
Data fabric é uma camada integrada que engloba todas as conexões e fontes de dados dentro de uma organização, bem como as relações que existem entre esses dados. Não é uma tecnologia singular, mas um conceito de design que possibilita diversas tecnologias diferentes, que trabalham simultaneamente para que todos os dados sejam fáceis de buscar. Como um data fabric tem o controle de todos os dados em toda a organização, ele pode responder a praticamente qualquer consulta de analytics.
Metadados são a espinha dorsal do data fabric
O data fabric prospera com metadados ricos. Metadados são “dados sobre dados”; em outras palavras, são informações como o que os dados contêm ou como estão estruturados. Eles são essenciais em todos os estágios do ciclo de vida dos dados. No data fabric, o objetivo é que os metadados conectem componentes interoperáveis e sirvam como um indicador do sucesso do data fabric, além de recomendar áreas de melhoria.
Para isso, o data fabric depende de dois tipos de metadados: "ativos" e "passivos", conforme definido pela Gartner. Metadados passivos são para uso pré-determinado (como modelos de dados, esquemas ou glossários) e também incluem metadados em tempo de execução, que incluem logs ou informações de auditoria. Metadados ativos, por outro lado, são orientados por IA. No data fabric, são os metadados ativos que geram as melhorias contínuas no design do data fabric.
Tanto quanto possível, a Gartner recomenda que um data fabric converta dados passivos em dados ativos. É como "analisar continuamente os metadados disponíveis para obter métricas e estatísticas importantes e, em seguida, construir um modelo gráfico" ou "aproveitar as principais métricas de metadados para que algoritmos de IA/ML aprendam ao longo do tempo e produzam previsões avançadas sobre gerenciamento e integração de dados". Em ambos os casos, os metadados desempenham uma função ativa na melhoria da distribuição de dados em toda a organização.
Devido à sua função crítica no data fabric, os metadados devem ser um qualificador importante ao selecionar tecnologias. As organizações devem priorizar tecnologias que compartilham metadados usando APIs abertas e padrões abertos para criar um data fabric bem-sucedido.
Por que o data fabric é necessário?
Se o objetivo do data fabric é unificar os dados para melhorar a busca e o acesso, por que, você pode perguntar, as organizações não podem usar data lakes ou data warehouses para combinar todos os dados, em vez de um data fabric? Em primeiro lugar, os data fabrics e outros repositórios de dados comuns não são mutuamente exclusivos — aliás, um data fabric funciona melhor quando combinado com eles.
No entanto, não é realista esperar que as organizações dependam de um armazenamento centralizado. A maioria tem uma combinação de diferentes nuvens públicas ou uma combinação de armazenamento no local ou na nuvem. Além disso, as organizações ingerem dados de várias fontes de dados, como mídias sociais e IoT.
No passado, outras soluções usadas para unir os vários pontos de acesso e armazenamento de dados eram insuficientes. As organizações tentaram integrações ponto a ponto, mas cada nova integração adiciona custos significativos e trabalho de manutenção à organização, além de não serem particularmente escaláveis. Os hubs de dados são outra solução arquitetônica que tentou solucionar o problema, mas eles frequentemente geram um risco maior de falta de qualidade nos dados.
Os benefícios do data fabric
Os benefícios do data fabric abrangem quase todas as facetas de uma organização e se enquadram principalmente em três categorias:
- Acesso a dados em regime self-service e insights aprimorados
Esse é possivelmente o benefício mais tangível do data fabric. Um data fabric integrado permite maior integração de dados e dá às organizações a capacidade de analisar rotineiramente grandes volumes de dados de forma simultânea, ampliando significativamente o potencial de gerar insights analíticos novos e mais frequentes. Além disso, um data fabric integrado oferece à empresa um ponto único de acesso para encontrar dados, sem a necessidade de solicitar à área de TI que reúna informações de diferentes silos. A capacidade de profissionais corporativos encontrarem os dados de que precisam estimula mais inovação e novos projetos de analytics em toda a organização, com ganhos que podem ser expressivos. - Governança automatizada
Incorporada como parte do data fabric, há uma camada de governança de dados, que é distribuída uniformemente por todos os pontos de acesso aos dados. Como resultado, as organizações têm mais confiança e transparência nos dados e podem aplicar automaticamente políticas de dados em toda a organização. Dependendo do nível da IA, as organizações também podem usar o data fabric para aplicar automaticamente a governança de dados, dependendo do idioma usado em determinados documentos ou políticas. Em questão de minutos, as organizações podem comprovar a conformidade e evitar multas potencialmente elevadas no processo. - Tarefas automatizadas de engenharia de dados
Diferente das integrações de dados tradicionais de ponta a ponta e da monitoração manual do pipeline de dados, o data fabric funciona em grande parte por conta própria - não há código para criar nem manter. Isso não só economiza aos engenheiros de dados muito tempo valioso como elimina o inevitável erro humano que vem com a codificação. Usando metadados, o data fabric também ajuda automaticamente a otimizar a integração dos dados, o que melhora a entrega dos dados, bem como o balanceamento da carga de trabalho e a escalabilidade elástica. O data fabric pode até automatizar as tarefas de descoberta de dados, dependendo das necessidades exclusivas da organização, para acelerar a valorização de um ativo de dados. Em essência, um data fabric reduz muito do trabalho necessário de engenharia de dados.
Principais componentes do data fabric
Conforme mencionado, o data fabric não é uma tecnologia singular, mas a combinação de várias tecnologias. Usando metadados como thread, essas tecnologias devem considerar determinados recursos, que incluem, conforme definido pela Garter:
- Catálogo de dados
Catálogo de dados é componente essencial do data fabric. Ele permite que as organizações acessem e representem todos os tipos de metadados e serve como um inventário para todos os ativos de dados. Portanto, é o catálogo de dados que fornece aos dados o contexto correto de metadados para serem compartilhados entre ambientes. O catálogo de dados também permite que os metadados sejam adicionados automaticamente a determinados tipos de dados e pode extrair determinados metadados para armazenamento. - Gráfico de conhecimento
O gráfico de conhecimento é o que dá significado ao data fabric. Ele enriquece os dados com a semântica sobre o uso dos dados em toda a organização, facilitando a interpretação dos líderes de analytics. Com o gráfico de conhecimento, a organização pode identificar melhor as relações entre múltiplos repositórios de dados, que podem ser usados em algoritmos de IA/ML para alimentar modelos de dados. - Gerenciamento ativo de metadados
As tecnologias de gerenciamento de metadados ativos são essenciais à apresentação das alterações sugeridas do data fabric provocadas pelos metadados ativos. Ele permite que o data fabric melhore constantemente de forma automática, sem revisão constante pela engenharia de dados. - Preparação de dados e camada de entrega
A camada de preparação e entrega de dados do data fabric é onde os dados são disponibilizados aos usuários. É importante que as tecnologias selecionadas para essa camada estejam acessíveis a todos os tipos de usuário, não apenas aos do departamento de TI. Em particular, os usuários de negócios devem ter papel fundamental ao estimular a preparação dos dados, o que, devido ao contexto específico, permitirá que os dados sejam transformados e usados de melhor forma para analytics. Para isso, as organizações devem seguir um estilo ELT (em oposição ao ETL). Isso permite que as transformações de dados ocorram após os dados brutos serem extraídos e carregados no respectivo repositório, o que dá aos usuários mais autonomia para decidir como eles devem ser transformados. Selecionar uma plataforma de engenharia de dados que habilite esse estilo ELT e uma preparação de dados fácil de usar deve ser prioridade máxima para organizações interessadas em criar um data fabric. - Orquestração e DataOps
Para que os dados sigam continuamente e em tempo certo de um lugar para outro, são necessários certos processos e agendamentos. Esse é um trabalho da camada de orquestração e DataOps de um data fabric. Em muitos casos, essa funcionalidade está incorporada às plataformas de preparação e engenharia de dados, pois é essencial para uma preparação de dados sem falhas. As organizações deveriam ser capazes de "definir e esquecer" muitos de seus pipelines rotineiros de preparação de dados, para que dados atuais e novos sejam sempre entregues.
Primeiros passos
É complicado começar uma jornada de data fabric, mas é provável que você já tenha um bom lugar para começar: seus processos de ELT. É por meio desses processos que você historicamente lidou com a maior parte do seu trabalho de integração de dados, e é a partir deles que você pode começar a ajustar os processos (como migrar para um estilo ELT) e adicionar as tecnologias necessárias para preencher quaisquer lacunas em metadados, governança, preparação de dados, etc.
Incluir mais e mais dados ao seu núcleo (com metadados extensos, é claro) é o próximo passo para criar seu data fabric. Os metadados ativos e os modelos de machine learning podem ser uma necessidade maior, mas não tenha pressa: é melhor começar aos poucos e desenvolver um data fabric lentamente do que trabalhar demais de uma só vez.
Uma coisa é certa: há um motivo para a Gartner ter nomeado o data fabric como uma das tendências para 2021 — a técnica soluciona muitas necessidades e só tende a ficar mais popular nos próximos anos.