O que é um catálogo de dados?

Um catálogo de dados auxilia organizações na criação de um inventário abrangente de todos os ativos disponíveis, espalhados entre diversos ambientes e projetos. Muitas vezes, as informações estão dispersas em vários bancos de dados relacionais ou operacionais, data warehouses e sistemas herdados. O catálogo de dados proporciona um método eficiente para localizar e analisar conjuntos de dados, assim como cumprir requisitos de conformidade da empresa.

Em 2020, um estudo realizado pela Seagate revelou que 43% dos dados coletados pelas organizações são subutilizados. Por que isso acontece? Em geral, muitas empresas armazenam seus ativos em silos de dados. Apenas equipes restritas possuem habilidades necessárias para explorar e analisar esses ativos. O problema principal não consiste na escassez de dados, mas na falta de um sistema inteligente para organizar e visualizar as informações. Um catálogo de dados providencia uma solução eficaz ao agrupar metadados associados com esses ativos.

 

Metadados: a base de um catálogo de dados

Ferramentas para criar catálogos de dados podem rastrear todos os arquivos armazenados pela organização e coletar metadados. Metadados são informações que completam os dados existentes. Eles descrevem e apresentam valores individuais dos conjuntos de dados. Um software para catalogar dados organiza metadados de forma automática, compreende a semântica das informações e estabelece relações entre os dados. Um conjunto de dados possui diferentes tipos de metadados relacionados. Eles definem diversos aspectos, tais como:

  1. Fonte ou proprietário do conjunto de dados
  2. Conteúdo do conjunto de dados
  3. Significado de tabelas e colunas
  4. Local onde os dados estão armazenados e quem pode acessá-los
  5. Histórico e linhagem do conjunto de dados
  6. Confiabilidade do conjunto de dados

Dependendo das características descritivas, é possível classificar metadados em três categorias amplas: metadados técnicos, operacionais e corporativos. Um catálogo de dados aproveita todos os tipos de metadados para criar uma visão unificada desses ativos.

  • Metadados técnicos definem a estrutura do conjunto de dados, por isso também são denominados metadados estruturais. Nomes e descrições de tabelas de dados pertencem à categoria de metadados técnicos. Eles também descrevem colunas em tabelas de dados e a lógica de negócios aplicada para calcular os valores. Metadados técnicos favorecem a descoberta de dados.
  • Metadados operacionais compreendem a linhagem do conjunto de dados. Eles fornecem insights sobre a fonte e o proprietário dos ativos de dados e o horário da criação. Além disso, registram informações sobre o uso — quando e quem já utilizou um conjunto de dados anteriormente. Dessa forma, os analistas de dados conseguem avaliar se as informações estão atualizadas e confiáveis. Metadados operacionais também são conhecidos como metadados administrativos.
  • Metadados corporativos são especialmente úteis quando empresas necessitam tomar decisões baseadas em dados. Eles especificam a qualidade e a confiabilidade do conjunto de dados. Além disso, avaliam a conformidade das informações.

Os ativos de dados de uma organização podem ter metadados avançados associados a eles, mas precisam reunir, analisar e inferir esses metadados para obter valor a partir deles. Essa é a principal funcionalidade do catálogo de dados. Assim como a coleta automatizada de metadados, uma ferramenta para catalogar dados também possibilita a consulta de metadados em massa — um processo que ajuda as partes envolvidas a adicionarem metadados de forma manual. Também facilita a curadoria de dados, onde o proprietário pode enriquecer o conjunto de dados com dicas de uso.

Principais funções do catálogo de dados

Descoberta de dados

Em muitas empresas, os dados são armazenados em silos, e somente algumas equipes têm conhecimento da existência dessas informações. Isso limita a capacidade dos usuários de localizar dados para acelerar a tomada de decisões. Analistas podem acabar criando conjuntos de dados adicionais ou confiar em informações parciais ou imprecisas.

Um catálogo de dados soluciona esse problema ao apresentar uma visão unificada de todos os ativos da organização. Muitos catálogos de dados oferecem uma interface de usuário semelhante a mecanismos de busca, onde basta digitar algumas palavras-chave correspondentes aos dados desejados. O catálogo de dados recupera a lista de ativos relacionados com as palavras-chave e filtros de pesquisa. Ele também fornece interfaces de programação de aplicações (APIs) para automatizar a descoberta de dados.

Assimilação de dados

Além da descoberta de dados, o catálogo de dados ajuda usuários a compreender melhor o conteúdo das informações. Usando metadados técnicos, o catálogo de dados disponibiliza a descrição completa do conjunto de dados. Isso significa que um usuário consegue obter insights profundos sobre o significado do conjunto de dados e a lógica de negócios correspondente.

Avaliação da qualidade de dados

Catálogos de dados combinam metadados operacionais e corporativos para agilizar a avaliação da qualidade. Com base no histórico e na linhagem do conjunto de dados, usuários podem determinar se as informações são atuais e confiáveis. Além disso, eles contribuem para aumentar o trabalho colaborativo e o tratamento manual de metadados, reforçando a eficácia do conjunto de dados. Ao incorporar avaliações e dicas de usuários, é possível aprimorar um catálogo de dados de forma contínua. Por isso, a criação de um catálogo de dados é imprescindível para ajudar empresas a aumentar a confiança de seus principais ativos.

Aquisição de dados

Ao descobrir um conjunto de dados confiáveis, usuários podem desejar consultá-lo para fins analíticos. Muitas vezes, o catálogo de dados facilita o acesso e a integração das informações para análise. Com catálogos de dados avançados, o processo é tão simples quanto clicar em um botão, permitindo acessar os dados na ferramenta desejada ou fazer o download. O acesso imediato aos dados permite acelerar o tempo para obter insights durante a tomada de decisões. Um catálogo de dados estabelece padrões para o processo de coleta de dados.

Por que organizações precisam de um catálogo de dados?

Explosão no volume de dados

Provavelmente, uma organização vai gerar ou coletar grandes volumes de dados. Essa quantidade exorbitante e a distribuição complexa de ativos de dados impossibilitam saber, inclusive, se existem informações adequadas para análise. A falta de transparência dos recursos da empresa dificulta o aproveitamento das informações para fundamentar ações estratégicas. Além disso, essa explosão de dados também prejudica a localização de dados acurados. Como resultado, funcionários podem se basear em dados ausentes, parciais ou duvidosos, porque encontrar os dados ideais é um verdadeiro desafio. Isso provoca o subaproveitamento de ativos de dados. Um catálogo de dados contribui para ajudar na descoberta de dados de alta qualidade, seja qual for o local onde estão armazenados.

Regulamentos e requisitos de governança de dados

Quando organizações possuem grandes volumes de dados, o controle e a segurança da informação podem gerar inúmeros problemas. Entre eles, o vazamento de dados e informações confidenciais. Com normas rigorosas como o Regulamento Geral sobre a Proteção de Dados (RGPD), empresas precisam garantir que apenas usuários autorizados possam acessar os dados adequados. Um catálogo de dados contribui para controlar o acesso e melhorar a governança. Dessa forma, organizações podem implementar controles internos para aumentar visibilidade e gerenciar permissões correspondentes aos ativos de dados. Além disso, equipes responsáveis pela conformidade podem detectar possíveis falhas de segurança com mais facilidade.

Decisões melhores e mais rápidas

O catálogo de dados reúne informações sobre a linhagem de dados. Elas incluem a origem e o histórico de uso. O catálogo de dados possibilita ainda o tratamento manual de ativos de dados através de avaliações e revisões. Equipes responsáveis pela curadoria também podem incluir dicas e sugestões para otimizar o aproveitamento. Além disso, a criação de um catálogo auxilia líderes de negócios a desenvolver estratégias baseadas em dados confiáveis e de alta qualidade.

Descentralização da gestão de dados

O catálogo de dados promove uma transformação cultural na gestão da empresa. Muitas vezes, algumas equipes, incluindo analistas, data scientists e especialistas de TI, controlam e fazem a curadoria das informações. O catálogo de dados permite converter esse paradigma centralizado em um processo de tratamento integrado e baseado na comunidade.

Como catálogos de dados podem ajudar diferentes funções analíticas?

O catálogo de dados é uma ferramenta versátil, capaz de fornecer uma grande variedade de recursos para diversas atribuições envolvendo os dados da organização.

Analistas

O catálogo de dados permite que analistas encontrem conjuntos de dados relevantes com rapidez. Como os dados são identificados adequadamente com a linhagem especificada, é possível selecionar o conjunto de dados ideal a partir de uma série de opções. As sugestões, revisões e comentários associados aos ativos de dados impulsionam processos analíticos mais eficazes.

Diretores de conformidade

O catálogo de dados contribui para auxiliar organizações a garantir o legítimo interesse na proteção de dados. Executivos responsáveis pelo cumprimento das regras podem executar procedimentos de autenticação, além de assegurar o acesso transparente das informações. Ele também pode colaborar com o roteiro de governança de dados da empresa. Catálogos de dados ajudam organizações a cumprir padrões de conformidade com regulamentos como o RGPD.

Arquitetos e estrategistas de dados

O catálogo de dados ajuda arquitetos na criação de uma abordagem gerenciada e self-service, permitindo que usuários autorizados possam descobrir, reutilizar e compartilhar dados corporativos cruciais. Assim, equipes podem usufruir de uma ferramenta central para detectar dados internos, assim como metadados indispensáveis para avaliar a qualidade e as características das informações.

Principais recursos do catálogo de dados

Catalogação de ativos de dados

Um catálogo de dados deve cruzar arquivos da empresa armazenados em data lakes, warehouses, bancos de dados relacionais e sistemas internos, para coletar metadados de forma automática e estabelecer correlações entre os conjuntos de dados. Em seguida, deve aproveitar metadados para rotular esses conjuntos. Além da compilação das informações, o catálogo de dados também deve agrupar relatórios, sites wikis e outras formas de ativos de dados não estruturados.

Recursos de pesquisa

Um catálogo de dados deve oferecer um mecanismo de busca simples, baseado no processamento de linguagem natural. Ele deve incluir palavras-chave ou termos de negócios, e exibir os ativos de dados correspondentes ordenados por preferências de busca. O catálogo de dados também deve apresentar resultados baseados no nível de acesso do usuário, além de ferramentas para ocultar dados e mascarar informações de usuários não autorizados.

Recursos para avaliar os dados

Quando algum usuário descobre conjuntos de dados associados a palavras-chave ou termos de busca, o catálogo de dados ajuda a fazer a avaliação das variáveis. Usuários autorizados podem visualizar o conjunto de dados, verificar a linhagem e os proprietários, assim como explorar certificações. Além disso, o catálogo de dados também deve listar classificações e avaliações dos usuários para compartilhar os resultados com outros colaboradores.

Segurança de dados

O catálogo de dados precisa oferecer suporte aos processos de governança da empresa. Ele deve cumprir normas de segurança e métodos de autenticação adequados. Além disso, é necessário ter capacidade de reforçar a proteção de dados com granularidades diferentes — seja um conjunto de dados, tabelas ou colunas.

Aquisição de dados

Quando algum usuário descobre e avalia um conjunto de dados, ele precisa acessá-lo. O catálogo de dados facilita a coleta sem transtornos. A busca por ativos internos pode ser tão simples quanto uma pesquisa na web. E quando os dados estiverem ausentes, é possível estabelecer um processo pelo qual usuários podem solicitar ativos de dados.

Aprimoramento da qualidade de dados

Além da descoberta, avaliação e aquisição de dados, o catálogo de dados também ajuda organizações a melhorar a qualidade das informações. Ele identifica conflitos e indica conjuntos de dados incompletos e imprecisos. Assim como a automação do controle de qualidade, o catálogo de dados também deve integrar o monitoramento baseado na comunidade, onde usuários podem avaliar um ativo de dados e comentar sobre as respectivas características.

Curadoria manual de dados

Assim como o agrupamento automático de metadados e rótulos de dados, o catálogo de dados também contribui para o enriquecimento das informações de forma manual. Assim, o curador pode excluir uma coleção de dados da biblioteca caso apresente sinais duvidosos. Além disso, é possível adicionar palavras-chave e tags aos conjuntos de dados, sinalizar dados sensíveis, incluir metadados complementares e compartilhar dicas de uso para o acervo de dados.

Capacidade de impulsionar colaborações e inovações

O catálogo de dados deve possuir recursos para aperfeiçoar a curadoria de dados baseada na comunidade. É necessário garantir que usuários possam inserir metadados, avaliar a qualidade das informações e adicionar comentários e sugestões. Esse catálogo deve facilitar a colaboração de diferentes usuários no tratamento dos ativos de dados.

Deseja criar um catálogo de dados? Comece agora

O Alteryx Connect é uma ferramenta poderosa que oferece todos os recursos necessários para catalogar seus dados. Além disso, ajuda você a identificar ativos de negócios, permitindo extrair o potencial máximo dos dados. O Alteryx Connect também contribui para aumentar a colaboração entre equipes no tratamento e enriquecimento de dados. Assim, você pode criar um catálogo de dados confiável e de forma rápida. Consulte a ficha de dados do Alteryx Connect agora mesmo para revolucionar suas estratégias e projetos de gestão de dados.