Implementando Data Quality em Pipelines de Dados

Índice

Overview
Porque testar dados?
Como adicionar qualidade de dados em uma pipeline
Tipos de testes
Testes unitários
- TDD - Test Driven Development
WAP - Write, Audit and Publish
Onde aplicar testes?
Dashboard de qualidade e log tables
- Log tables
- Dashboard de qualidade de dados
Resumo

Overview

Primeiro é importante notar que embora os conceitos de qualidade de dados sejam imutáveis, existem inúmeras maneiras diferentes de implementar checks de qualidade de dados, estes dependendo de variáveis como:

Tipo de ingestão e precessamento de dados: batch, micro batch, streaming;
Volumetria dos dados: O jeito de se testar uma tabela de 1 bilhão de linhas requer mais otimizações do que uma tabela de 500 mil linhas;
Ferramentas: Diferentes ferramentas possuem diferentes sintaxes e modos de se adicionar testes.

Portanto, esse artigo se foca nos conceitos de fundação, mas para que não fique teórico demais, mostrarei exemplos utilizando DBT. DBT é uma ferramenta que nos permite criar tabelas utilizando SQL e guardar documentações e testes em um arquivo .yml.

Como pode-se ver abaixo, estou criando a tabela customer_orders utilizando um arquivo SQL a partir da tabela jaffle_shop e a documentação dessa tabela juntamente com os testes se encontram num arquivo .yml.

DBT Example

Porque testar dados?

A resposta é meio óbvia. Não queremos que clientes ou indivíduos tomem decisões erradas baseados em dados errados. Além disso, erros nos dados podem ocasionar em:

Perda de confiança e autoridade;
Problemas legais ou possívels ações judiciais;
Bugs e sistemas fora de funcionalidade;

Entre outros…

Como adicionar qualidade de dados em uma pipeline

Bem, primeiro temos de saber os tipos de testes que podemos fazer, onde e quando fazer. Isso depende de produto, complexibilidade e regra de negócio. Um sistema simples não necessariamente precisa de um ambiente extremamente robusto e testável. Devemos lembrar sempre que testar dados requer recursos: CPU, memória e especialemente tempo. Portanto, cabe à quem desenvolver uma pipeline quais testes fazer.

Tipos de testes

Pessoalmente, eu gosto de separar os testes em 4 níveis: testes comparativos (comparative), testes de tabela (table level), testes de linha (row level) e testes de coluna (column level). Tests Hierachy

Column level

Aqui testamos valores de colunas específicas. Alguns exemplos são:

Teste de unicidade: Garante que cada valor em uma coluna apareça apenas uma vez, prevenindo duplicações indesejadas. Embora primary keys já tenham unicidade por definição, este teste é essencial para chaves naturais (como CPF, email) e identificadores únicos (UIDs) que precisam ser únicos por regra de negócio. Por exemplo, se dois clientes compartilharem o mesmo email, isso pode indicar cadastro duplicado ou erro na ingestão de dados.

1
DBT example:
2
- name: customer_email
3
  description: Email do cliente. Deve ser único para evitar duplicação de cadastros
4
  tests:
5
    - unique

Teste de nulidade: Valida se colunas obrigatórias contêm valores nulos, garantindo a integridade dos dados essenciais. Este teste é fundamental para campos que são críticos para o negócio ou para o funcionamento de sistemas downstream. Por exemplo, um cadastro de usuário sem email pode impedir envio de notificações importantes, ou uma transação sem data pode impossibilitar análises temporais.

1
DBT example:
2
- name: customer_email
3
  description: Email do cliente. Campo obrigatório para comunicação
4
  tests:
5
    - not_null

Teste de valores aceitáveis: Verifica se os valores de uma coluna estão dentro de um conjunto ou intervalo permitido, prevenindo dados inválidos ou inconsistentes. Este teste é crucial para colunas com valores categóricos (status, tipos, categorias) ou para validar ranges lógicos. Exemplos práticos: uma coluna booleana deve conter apenas true/false, ano de nascimento não pode ser maior que o ano atual, status de pedido deve ser apenas ‘placed’, ‘shipped’, ‘completed’ ou ‘returned’ - qualquer valor fora destes indica erro de sistema ou manipulação incorreta de dados.

1
DBT example:
2
- name: order_status
3
  description: Keep the order status. Possible values are: placed, shipped, completed, returned
4
  tests:
5
    - accepted_values:
6
        arguments:
7
          values: ['placed', 'shipped', 'completed', 'returned']
8

9
- name: monthly_sms_count
10
  description: Count of SMS sent per month
11
  tests:
12
    - dbt_expectations.expect_column_values_to_be_between:
13
        min_value: 800
14
        max_value: 1200

Teste de integração (Referential Integrity): Garante que relacionamentos entre tabelas sejam válidos, verificando se foreign keys referenciam registros existentes nas tabelas pai. Este teste é fundamental para manter a integridade referencial do banco de dados. Por exemplo, em uma tabela orders com coluna product_id, cada ID deve corresponder a um produto existente na tabela products. Se encontrarmos um product_id órfão (sem correspondente), isso indica dados corrompidos, possivelmente uma compra de produto deletado ou não cadastrado, erro em cascata de deleções, ou falha na sincronização entre sistemas.

1
DBT example:
2
- name: product_id
3
  description: Reference to product table
4
  tests:
5
    - relationships:
6
        to: ref('products')
7
        field: id

Row level

Teste de consistência: Valida a coerência lógica entre múltiplas colunas da mesma linha, garantindo que os dados fazem sentido quando analisados em conjunto. Este teste captura inconsistências que passariam despercebidas em validações de colunas individuais. Exemplos práticos: um pedido com status ‘completed’ deve obrigatoriamente ter uma data em completed_at preenchida; o campo total deve ser matematicamente igual a subtotal + impostos; uma data de fim não pode ser anterior à data de início. Esses testes previnem estados impossíveis ou logicamente inválidos nos dados.

1
DBT example (using dbt-utils package):
2
tests:
3
  - dbt_utils.expression_is_true:
4
      expression: "NOT (status = 'completed' AND completed_at IS NULL)"
5
      name: completed_orders_must_have_completion_date
6
  - dbt_utils.expression_is_true:
7
      expression: "total = subtotal + tax"
8
      name: total_equals_subtotal_plus_tax

Table level

Teste de granularidade: Define e valida o nível de detalhe esperado em cada linha da tabela, prevenindo duplicações indesejadas. Cada tabela possui uma “grain” (granularidade) que determina o que cada linha representa. Por exemplo, em uma tabela orders, cada linha pode representar “um produto comprado por um cliente em um determinado momento por um valor específico”. Neste caso, a combinação (customer_id, product_id, order_datetime, total_value) deve ser única, se duas linhas têm exatamente os mesmos valores, provavelmente são duplicatas. Ponto importante: não inclua o ID auto-gerado neste teste, pois duplicatas verdadeiras teriam campos de negócio idênticos mas IDs diferentes, fazendo o teste não detectar o problema. Este teste garante que você entende e mantém a granularidade correta conforme a regra de negócio.

1
DBT example (using dbt-utils package):
2

3
- name: customer_orders
4
    description: "Customer order aggregations including first order, most recent order, and total order count"
5
    columns:
6
    tests:
7
    - dbt_utils.unique_combination_of_columns:
8
        combination_of_columns:
9
          - order_datetime
10
          - total_value
11
          - customer_id
12
          - product_id

Teste de freshness (Frescor dos dados): Monitora se os dados estão sendo atualizados conforme esperado, detectando quebras silenciosas na ingestão ou processamento. Este teste é crítico para pipelines com cadências definidas (diária, horária, em tempo real). Por exemplo, se uma tabela é atualizada diariamente e de repente fica 3 dias sem receber novos dados, isso indica falha na fonte, quebra no job de ingestão, ou problemas de conectividade. Detectar isso rapidamente evita que decisões sejam tomadas com base em dados defasados.

1
DBT example (configured at source level in schema.yml):
2
sources:
3
  - name: raw_data
4
    tables:
5
      - name: orders
6
        freshness:
7
          warn_after: {count: 1, period: day}
8
          error_after: {count: 3, period: day}

Teste de volumetria: Valida se o número total de registros na tabela está dentro de um intervalo esperado, detectando anomalias de volumetria. Mudanças drásticas no número de linhas frequentemente indicam problemas sérios: uma queda de 50% pode significar falha parcial na ingestão, filtros incorretos aplicados, ou perda de dados; um aumento anormal (ex: triplicar overnight) pode indicar duplicação de dados, loops infinitos, ou carga duplicada. Este teste funciona como um “sanity check” de alto nível sobre a saúde da tabela. Uma maneira de se fazer este teste é com comparative tests ou com comparações entre staging e production tables (apresentado na seção de WAP).

Teste de paridade com source: Garante que a ingestão de dados da origem foi completa e bem-sucedida, comparando contagens de linhas entre a tabela source e a tabela de destino. Este teste é essencial em processos de ETL/ELT para validar que nenhum dado foi perdido ou duplicado durante a transferência. Se a tabela de origem tem 10.000 registros mas sua tabela ingerida tem apenas 8.500, isso sinaliza perda de dados no processo de cópia. Inversamente, ter mais linhas que a source pode indicar duplicação. Este teste valida a integridade do processo de ingestão desde a origem.

1
DBT example (using dbt-utils package):
2
tests:
3
  - dbt_utils.equal_rowcount:
4
      compare_model: source('raw_data', 'orders')

Testes comparativos

Testes de rastreabilidade end-to-end no ETL: Estes testes acompanham métricas-chave através de toda a pipeline, garantindo que transformações e agregações não estejam causando perda inesperada de dados. Funcionam como uma “auditoria de lineage” dos seus dados.

Exemplo prático: Imagine três tabelas em cascata:

pacientes (1000 pacientes)
paciente_visitas (criada a partir de pacientes)
paciente_observacoes (criada a partir de paciente_visitas)

A lógica: Se você tem 1000 pacientes únicos na primeira tabela, as tabelas derivadas deveriam referenciar esses mesmos 1000 pacientes (assumindo que todos os pacientes têm pelo menos uma visita/observação, ou que a lógica de negócio está clara sobre filtros).

O problema que detecta: Se paciente_observacoes de repente mostra dados de apenas 800 pacientes, você sabe que 200 pacientes “desapareceram” em algum ponto do ETL - talvez um JOIN incorreto, filtro mal aplicado, ou transformação que não considerou edge cases. Este teste força documentação e validação da lógica de negócio. Se era esperado perder esses 200 pacientes (ex: pacientes sem observações registradas), essa regra deve estar documentada e o threshold do teste ajustado adequadamente.

Comparative Tests

Um exemplo de comparative test para rastrear número de pacientes é:

1
WITH base_counts AS (
2
  SELECT
3
    'pacientes' AS tabela,
4
    COUNT(DISTINCT paciente_id) AS pacientes_unicos
5
  FROM pacientes
6

7
  UNION ALL
8

9
  SELECT
10
    'paciente_visitas' AS tabela,
11
    COUNT(DISTINCT paciente_id) AS pacientes_unicos
12
  FROM paciente_visitas
13

14
  UNION ALL
15

16
  SELECT
17
    'paciente_observacoes' AS tabela,
18
    COUNT(DISTINCT paciente_id) AS pacientes_unicos
19
  FROM paciente_observacoes
20
),
21

22
base_reference AS (
23
  SELECT pacientes_unicos AS base_count
24
  FROM base_counts
25
  WHERE tabela = 'pacientes'
26
),
27

28
comparison_results AS (
29
  SELECT
30
    base_counts.tabela,
31
    base_counts.pacientes_unicos,
32
    base_counts.base_count,
33
    (base_counts.pacientes_unicos - base_reference.base_count) AS diferenca,
34
    ROUND(100.0 * base_counts.pacientes_unicos / base_reference.base_count, 2) AS percentual_retencao,
35
    ROUND(100.0 * (base_reference.base_count - base_counts.pacientes_unicos) / base_reference.base_count, 2) AS percentual_perda
36
  FROM base_counts
37
  CROSS JOIN base_reference
38
)
39

40
SELECT
41
  tabela,
42
  pacientes_unicos,
43
  base_count AS pacientes_esperados,
44
  diferenca,
45
  percentual_retencao,
46
  percentual_perda,
47
  CASE
48
    -- Threshold: permitir até 5% de perda (ajuste conforme regra de negócio)
49
    WHEN percentual_retencao >= 95.0 THEN 'Pass'
50
    WHEN percentual_retencao >= 90.0 THEN 'Warn'
51
    ELSE 'Error'
52
  END AS status_teste,
53
  CASE
54
    WHEN percentual_retencao < 95.0 THEN
55
      'ATENÇÃO: ' || ABS(diferenca) || ' pacientes desapareceram. Verificar JOINs, filtros e transformações.'
56
    ELSE
57
      'Pipeline mantendo integridade dos dados.'
58
  END AS diagnostico
59
FROM comparison_results
60
ORDER BY tabela;

Enfim, existem diversos outros testes existentes ou testes customizados que possamos fazer. E existem bibliotecas que ajudam nisso, um exemplo de biblioteca famoso é o great expectations que possui interface para spark e dbt por exemplo. Aqui podem ver outros testes existentes:

Testes unitários

Todos nós conhecemos testes unitários em desenvolvimento de software, certo? Quando criamos uma função com lógica suficientemente complexa, devemos escrever testes para verificar se ela cobre os casos esperados (e não para provar que a função está correta, mas isso é assunto para outro artigo).

Podemos aplicar o mesmo conceito para tabelas. Durante um processo de ETL, tabelas são geradas via SQL, com tabelas upstream (dependências) e tabelas downstream (derivadas). Em muitos casos, uma query SQL é simples o suficiente para não necessitar de testes unitários. Se você é um programador ou data engineer competente, conseguirá fazer joins corretamente, case statements, window functions e outros recursos. Entretanto, existem tabelas complexas, com múltiplos joins e transformações que tornam difícil compreender seu resultado final. Nesses casos, testes unitários podem garantir que sua lógica SQL está correta.

TDD - Test Driven Development

O TDD é uma metodologia de programação onde primeiro escrevemos o teste, já conhecendo o output esperado, e depois implementamos a função. Conhecer antecipadamente o resultado esperado auxilia na criação correta da implementação. Em engenharia de dados o princípio é o mesmo: ao criar testes unitários com os resultados esperados, você consegue identificar erros no seu SQL que antes passariam despercebidos. Portanto, é uma excelente estratégia para lidar com tabelas complexas.

Um exemplo de teste unitário em dbt é:

Unit Tests

No exemplo acima, estamos criando a tabela dim_customers. Criamos mocks das linhas de input de determinada tabela necessária na lógica SQL (no caso a tabela events) e o output esperado da tabela dim_customers.

WAP - Write, Audit and Publish

WAP

O que é Write, Audit and Publish?

WAP é um padrão arquitetural de dados que introduz duas ramificações de tabelas: staging e production.

Production: Tabelas de produção que alimentam dashboards, aplicações e clientes finais
Staging: Tabelas com alterações pendentes que precisam ser validadas antes de serem promovidas para produção

Fluxo: Dados são escritos em staging → passam por todos os checks de qualidade → após validação, são promovidos para production.

Por que WAP é importante?

Além dos testes de coluna, linha, table e comparative, WAP permite testes de regressão entre estados, comparando versões staging vs production da mesma tabela.

Exemplo prático de proteção:

Imagine que você tem uma tabela customers com 50.000 linhas em produção. Um data engineer modifica a lógica SQL acidentalmente introduzindo um filtro restritivo, resultando em apenas 30.000 linhas na versão staging.

Sem WAP: Os testes de coluna, linha e table continuam passando (pois validam apenas a estrutura e regras internas), e os dados incorretos vão para produção
Com WAP: Um teste comparativo detecta que houve queda de 40% no número de linhas entre production e staging, bloqueando o deploy e alertando sobre a anomalia antes que afete usuários finais

Este padrão adiciona uma camada crítica de validação que captura regressões e mudanças inesperadas de volumetria que passariam despercebidas em testes isolados.

Exemplo de teste SQL comparando staging vs production

1
-- Teste: Detectar variação anormal no número de linhas entre production e staging
2
-- Falha se a diferença for maior que 15%
3

4
WITH prod_count AS (
5
    SELECT COUNT(*) as total_rows
6
    FROM production.customers
7
),
8
staging_count AS (
9
    SELECT COUNT(*) as total_rows
10
    FROM staging.customers
11
),
12
comparison AS (
13
    SELECT
14
        prod_count.total_rows as prod_rows,
15
        staging_count.total_rows as staging_rows,
16
        ABS(staging_count.total_rows - prod_count.total_rows) as row_difference,
17
        ROUND(
18
            100.0 * ABS(staging_count.total_rows - prod_count.total_rows) / NULLIF(prod_count.total_rows, 0),
19
            2
20
        ) as percentage_change
21
    FROM prod_count
22
    CROSS JOIN staging_count
23
)
24
SELECT
25
    prod_rows,
26
    staging_rows,
27
    row_difference,
28
    percentage_change,
29
    CASE
30
        WHEN percentage_change > 15 THEN 'FAIL: Variação excede threshold de 15%'
31
        ELSE 'PASS'
32
    END as test_result
33
FROM comparison
34
WHERE percentage_change > 15;  -- Query retorna linhas apenas se o teste falhar

Outros testes comparativos úteis em WAP:

Validação de valores agregados críticos: Comparar totais (ex: soma de receita, contagem de pedidos ativos)
Verificação de chaves: Garantir que todas as chaves presentes em production existem em staging
Detecção de valores nulos novos: Alertar se colunas que não tinham nulos em production passaram a ter em staging

Onde aplicar testes?

Testes nunca são demais, mas não podemos esquecer que consomem recursos: CPU, memória e tempo. Existem estratégias para lidar com isso, como partições e testes heurísticos, que não abordarei aqui.

Agora, se um pipeline é simples, não acho que ter todos os testes que apresentei seja uma opção, talvez seja overengineering.

Acho que os testes mais importantes que devem estar em qualquer lugar são: nulidade, unicidade, referência e valores aceitáveis.

Dashboard de qualidade e log tables

Aqui temos dois conceitos importantes.

Log tables

São tabelas com o objetivo de criar logs sobre seu ETL. Por exemplo: se você tem uma tabela de produtos que deveriam ter número serial, pode criar uma tabela log_product_without_serial_number que mostrará os produtos sem número serial. Você pode simplesmente executar SELECT * FROM log_product_without_serial_number sem precisar acessar seu ETL. Ou talvez você precise de uma tabela log_customer_count que mostre o número de customers em cada tabela que contenha customer_id, permitindo identificar se alguma tabela tem menos customers que o esperado (sim, um comparative test, mas como uma tabela).

Dashboard de qualidade de dados

Com todas as suas log tables, você pode criar um BI centralizado onde visualiza todos os problemas do seu ETL em um único lugar, sem precisar fazer queries. Além disso, pessoas não técnicas podem visualizar e compreender. Por exemplo, se você tem um gráfico indicando que 10% dos produtos estão sem número serial, o responsável por catalogar pode ver quais faltam.

Resumo

Vimos testes de tabela, de coluna, de linha, comparativos, log tables, como testar tabelas entre staging e production e testes unitários.

Esses testes são para pipelines em batch (não em streaming) e para baixa/média volumetria. Claro que tudo isso funciona para Big Data, mas precisaríamos de estratégias de otimização.

Fiquem bem.