O que é ingestão de dados (data ingestion)?

A ingestão de dados é o processo de coletar os dados das suas fontes e levá-los para um ambiente de destino onde possam ser acessados, utilizados ou analisados. A fonte de dados pode ser um data lake, um aparelho IoT, um banco de dados no local ou na nuvem, um aplicativo SaaS, entre outros. Os destinos geralmente incluem data warehouses na nuvem, data lakes na nuvem ou data marts.

Tipos de ingestão de dados (data ingestion)

O centro de qualquer arquitetura de analytics é a camada de ingestão de dados. Há vários tipos de ingestão de dados, e o design de uma determinada camada pode se basear em variados modelos ou arquiteturas.

Ingestão em lote dos dados

A ingestão em lote dos dados (o tipo mais comum) é o processo de coleta e transferência em lotes dos dados para um sistema de destino. Ela geralmente obedece a um cronograma, evento ou condição de acionamento ou qualquer outra ordenação lógica. As organizações usam a ingestão em lote quando precisam coletar regularmente pontos de dados específicos ou realizar consultas ad hoc, mas sem a necessidade dos dados em tempo real para a tomada das decisões.

Ingestão em tempo real dos dados

A ingestão em tempo real dos dados é quando os dados são obtidos, manipulados e carregados assim que são criados ou reconhecidos pela camada de ingestão de dados. As organizações usam a ingestão em tempo real em casos de uso com prazo, quando é essencial ter dados atualizados constantemente. É o caso de uma negociação no mercado de ações ou no monitoramento da rede elétrica.

Ingestão de dados baseada na arquitetura Lambda

A ingestão de dados baseada na arquitetura Lambda combina a ingestão em lote dos dados e a ingestão em tempo real. Ela consiste em camadas de lote, de serviço e de rapidez. As duas primeiras camadas indexam os dados em lotes; já a camada de rapidez indexa instantaneamente os dados ainda não coletados pelas camadas de lote e de serviço mais lentas. Essa transferência constante entre as diferentes camadas garante dados disponíveis e com baixa latência para consulta.

Por que a ingestão de dados (data ingestion) é importante?

A ingestão de dados é importante porque mostra às organizações o volume, a variedade e a complexidade cada vez maiores dos dados. Os dados devem ser ingeridos antes de serem digeridos pelos analistas, gerentes de linha de negócios, decisores de negócios, aplicativos e modelos de Machine Learning. Para tomar decisões melhores e mais fundamentadas, as organizações precisam de acesso a todas as fontes de dados voltados para analytics e business intelligence (BI). Os sistemas de geração de relatórios e de analytics a jusante dependem de dados consistentes e acessíveis, e a ingestão de dados possibilita isso.

Com a ingestão automatizada dos dados, as organizações podem operar com mais eficiência. Ao automatizarem esse processo, as organizações podem eliminar tarefas manuais tediosas. Com isso, poupam-se tempo e dinheiro, e os limitados recursos técnicos podem ser dedicados a outras tarefas de alto valor. Os engenheiros podem usar uma tecnologia automatizada na ingestão de dados para que os aplicativos e ferramentas de software transfiram rapidamente os dados e melhorem a experiência dos usuários.

Como o Alteryx viabiliza a ingestão de dados (data ingestion)?

O Alteryx simplifica a ingestão de dados, criando um ambiente flexível que opera de ponta a ponta nos fluxos de trabalho analíticos e integra totalmente as modernas cadeias de ferramentas. As organizações usam o Alteryx para automatizar o processo de ingestão, transformação e entrega dos dados da origem até o destino, Com isso, eliminam-se os tediosos e trabalhosos fluxos manuais de ingestão de dados.

Inteligente, colaborativa e self-service, essa plataforma de engenharia de dados na nuvem favorece a ingestão de dados. Com isso, fica mais fácil:

  • Conectar-se aos dados de qualquer fonte. O Designer Cloud oferece conectividade universal dos dados a uma ampla gama de fontes. Assim, fica mais rápido e fácil conectar e ingerir quaisquer dados. Com uma arquitetura self-service, o Alteryx oferece acesso flexível e tranquilo aos dados, além de aceitar a conectividade ao armazenamento na nuvem, data warehouses na nuvem e arquivos.
  • Transformar dados brutos em dados prontos para usar em toda a organização. O Designer Cloud deixa os dados úteis e compreensíveis a usuários leigos e experientes, independentemente da origem, do destino ou do uso. Na interface visual do Designer Cloud, as organizações podem usar as técnicas de transformação de dados preditivos para detectar e resolver padrões complexos nos dados e transformar esses padrões em dados consumíveis por analytics e aplicativos.
  • Implantar e automatizar o pipeline de dados em questão de minutos. O Designer Cloud facilita a implantação e a automação do pipeline de dados da origem ao destino. Com isso, os usuários podem programar e automatizar os fluxos de trabalho de dados em larga escala.

 

Próximo termo
Previsão de demanda