Bancos de Dados de Família de Colunas

Dando continuidade à nossa série de artigos, desta vez abordamos os bancos de dados de família de colunas (Column-Family). Esses bancos, como Apache Cassandra, HBase, ScyllaDB (inspirado em Cassandra), surgiram com foco em alta escalabilidade e desempenho em cenários de escrita intensa ou dados distribuídos. Analisaremos as mesmas sete categorias que vimos anteriormente, atribuindo notas de 0 a 10 com base em uma visão geral do modelo de família de colunas.

1. Curva de Facilidade de Aprendizado

Nota: 6/10

Por Que

O modelo de família de colunas pode ser menos intuitivo para quem está habituado a bancos relacionais ou documentos. A ideia de “tabelas” existe, mas sem joins, com chaves de partição e clustering keys que definem como os dados são fisicamente organizados.
Ferramentas de administração e consultas (por exemplo, Cassandra Query Language – CQL) tentam se assemelhar a SQL, mas têm limitações e particularidades.

Observações

Com boa documentação e tutoriais, o básico é aprendível rapidamente, porém entender desenho de partição e otimização de queries requer estudo específico.

2. Facilidade de Modelagem de Dados

Nota: 7/10

Por Que

Bancos de família de colunas geralmente trabalham com “tabelas” onde as colunas podem variar por registro, mas o ponto crucial é projetar chaves de partição (e de clustering) para suportar o padrão de acesso.
Necessita modelagem orientada a query: cada tabela é pensada para atender às consultas principais, evitando joins externos.

Observações

Para cenários em que há altos volumes de dados, mas consultas previsíveis (ex.: logs de eventos, time series, registros de IoT), a modelagem é relativamente simples: definimos chaves de partição para distribuir a carga e chaves de clustering para ordenação.
Se o domínio tem relacionamentos complexos e queries variadas, é preciso duplicar dados ou criar tabelas específicas para cada tipo de consulta.

3. Escalabilidade / Taxa de Transferência

Nota: 9/10

Por Que

Esse é o ponto forte de bancos como Cassandra e HBase: escala horizontal praticamente linear, grandes volumes de dados e alto throughput de escrita/leitura.
Ao adicionar nós no cluster, a chave de partição faz o sharding automático, distribuindo dados e requisições.

Observações

A performance depende muito de um bom design de partições (evitar hot spots).
Em geral, conseguem lidar com petabytes de dados e milhões de operações por segundo, se configurados adequadamente.

4. Disponibilidade e Tolerância de Partição

Nota: 9/10

Por Que

Projetados para ambientes distribuídos em larga escala, bancos de família de colunas priorizam AP (Availability e Partition tolerance) no teorema CAP, suportando replicação multi-data center.
Cassandra, por exemplo, pode continuar a operar mesmo com falhas de rede, usando consistência configurável (quorum, etc.).

Observações

O grau de consistência é ajustável: escrever e ler com “consistência local, quorum ou global”. Maior disponibilidade pode implicar consistência eventual.
Mesmo sob partições de rede, bancos dessa categoria conseguem servir leituras e/ou escritas nos nós disponíveis.

5. Consistência

Nota: 6/10

Por Que

Embora exista a possibilidade de configurar “consistência” (quorum, all, one), o modelo não é ACID no sentido estrito. Não há transações multi-linhas atômicas em Cassandra, por exemplo.
Em geral, focam em escrita rápida e replicação assíncrona, resultando em consistência eventual como comportamento padrão.

Observações

Se se requer transações complexas, bancos de família de colunas não são a melhor escolha. Mas podem adequar-se a cenários que toleram leve divergência temporária.

6. Suporte, Maturidade, Comunidade e Compatibilidade

Nota: 8/10

Por Que

Apache Cassandra e HBase são projetos da Apache, com comunidades grandes, uso por gigantes de TI (Netflix, Apple, etc.). ScyllaDB é relativamente novo, mas vem ganhando espaço.
Diversos drivers para linguagens populares (Java, Python, Go etc.) e documentação oficial + foruns ativos.

Observações

Não existe um padrão universal de query. Cassandra tem CQL, HBase usa APIs estilo Hadoop e queries específicas, etc. Não é tão padronizado como SQL.
Em termos de maturidade, Cassandra e HBase estão bem estabelecidos, mas exigem expertise para administração de cluster.

7. Prioridade de Leitura e Gravação

Nota: 9/10

Por Que

Bancos de família de colunas são otimizados para altas cargas de escrita e leituras de dados “sequenciados” pela chave/clustering.
Muito usados para armazenar time series, logs ou “wide-column” data onde queremos agregar grandes volumes de registros de forma distribuída.

Observações

Podem atingir performance excelente para leituras e escritas em massa, desde que as queries sejam desenhadas conforme a modelagem de partição.
Consultas complexas fora do padrão de partição/clustering podem ser ineficientes.

Resumo das Notas

Característica	Nota
Curva de Facilidade de Aprendizado	6/10
Facilidade de Modelagem de Dados	7/10
Escalabilidade / Taxa de Transferência	9/10
Disponibilidade e Tolerância de Partição	9/10
Consistência	6/10
Suporte, Maturidade, Comunidade, Compatibilidade	8/10
Prioridade de Leitura e Gravação	9/10

Conclusão

Os bancos de dados de família de colunas surgem como uma opção forte em cenários de:

Alto volume de dados distribuídos.
Escala horizontal necessária, priorizando disponibilidade e tolerância a partições.
Operações de leitura e escrita baseadas em padrões de partição, sem necessidade de transações ACID complexas.

Eles não são ideais quando:

Você precisa de joins extensivos ou consistência transacional forte em múltiplas linhas/tabelas.
O padrão de queries é muito variado e não segue arranjo pré-definido por partição.

Em contrapartida, se o objetivo é manter grandes volumes de dados de forma distribuída, com alto throughput, e sua aplicação tolera consistência eventual (ou configurável) e modelagem orientada a partições, bancos de família de colunas são uma excelente solução.

No próximo artigo da série, examinaremos outro tipo de banco, aplicando as mesmas categorias de avaliação para ampliar ainda mais seu panorama na escolha de tecnologia de dados.

Notas Bibliográficas

Arquitetura de Software: As Partes Difíceis. Editora Alta Books.