Sobre o armazenamento de dados e o Bigdata

Recentemente li uma pesquisa do IDC afirmando que, até 2020, o número de dados gerados na web deve ultrapassar a marca de 44 zetabytes (44 trilhões de gigabytes). Outra pesquisa da mesma consultoria afirma que, o volume de dados gerados diariamente na web deve aumentar a taxas de 60% por ano. Não tenho como propósito neste post abordar com profundidade a questão da qualidade dos dados, quero focar apenas no problema do armazenamento dos dados.

É impressionante não é mesmo? É o que eu impertinentemente chamei de BigNada, que é o acumulo de dados (BigData) sem resultados práticos ou financeiros associados. E o pior é constatar várias empresas de diversos tamanhos e segmentos embarcar neste “modismo” sem saber ao certo onde querem e precisam chegar. Sei que esta informação é empírica, mas conversando com diversos colegas que são profissionais de grandes empresas do Brasil e do mundo o que constato é, a adoção do BigData (com raríssimas exceções) não caminha junto com a melhoria do EBITDA nas empresas, pelo contrário.

É como afirmou Peter Thiel co fundador do PayPal:

Big Data is Nothing But a Buzzword

É claro que a popularização do acesso à internet na maior parte dos países e a explosão do uso de dispositivos móveis e as redes sociais são fatores motivadores deste crescimento na geração de dados. Mobilidade e redes sociais são apenas 2 dos 4 elementos citados no Nexus das Forças, teoria do Gartner sobre os direcionadores do mercado de tecnologia.

Eu poderia discorrer sobre a diferença entre dados, informações e conhecimento e a cadeia lógica que existe entre estes elementos, mas também não vou focar neste ponto. Percebe a tentação para quem escreve? Cada tentáculo do post pode facilmente roubar o seu propósito principal.

Armazenar informações é um desafio muito antigo, veja por exemplo, o caso dos egípcios que a muito tempo atrás criaram o papiro (papel feito a partir do arroz) para registrar sua história e cultura para as gerações futuras. Outro exemplo interessante são os manuscritos do Mar Morto, que datam de aproximadamente 100 AC. Ambos são bons exemplos de que algumas informações realmente merecem ser gravadas e preservadas. O interessante é o insumo “papel”, que aparentemente tão frágil, ter uma vida útil tão grande e perdurar por séculos escondido no meio do deserto (sem ar condicionado, rede elétrica especial e a infraestrutura civil dos data centers modernos) até ser encontrado e servir como base fundamental para a fé de Judeus e Cristãos.

Atualmente com o poder computacional disponível e com a capacidade quase ilimitada de gerar conteúdo, armazenar dados é um desafio para as empresas e pessoas. Quem não se deparou com este desafio, o de armazenar as fotos e vídeos pessoais de forma simples e num custo aceitável?

Sem dúvida este é um dos desafios que a TI Corporativa tem pela frente, vale ressaltar que mídias eletrônicas, sejam HDs, DLTs, etc tem vida útil relativamente pequena e TCO elevado(eletricidade, ar condicionado e mão de obra para manter os ativos computacionais necessários), quando comparado com o armazenamento de dados em papel.

Participei de um estudo recente sobre formas de armazenar conteúdo em meios digitais, estudamos diversas soluções em nuvem e soluções locais e o custo relativo as respectivas opções. No cenário estudado o maior ofensor foram os arquivos de vídeo.

Dentre as opções consideradas posso destacar, Google drive/Nearline, OneDrive da Microsoft, Glacier da Amazon, Storage S3 também da Amazon, Storage on premesis e o DropBox. Dos vários serviços avaliados chegamos a conclusão de que todos eles são caros quando escalamos volumes perto de 50TB. Desta realidade advém a minha provocação: vale realmente a pena armazenar este conteúdo?

A perspectiva crescente de armazenamento deste tipo de conteúdo faz da nuvem uma opção interessante, pois compartilhar os custos com outras empresas acaba tornando o TCO menor para todos. Nuvens privadas, públicas e os modelos mistos oferecem às empresas a flexibilidade e o planejamento necessários para atender às demandas específicas, num custo mais elevado. Na contramão dessas vantagens vem apenas a preocupação com segurança, o que aumenta a atratividade do modelo de nuvem privada.

Quando atuei como consultor de uma empresa de TI, fizemos um trabalho numa grande petroquímica brasileira e detectamos que aproximadamente 70% dos arquivos armazenados no diretório corporativo (file server) não eram acessados por mais de 6 meses. O que isso significa? Que somos uma geração ávida por gerar dados, mas que estes dados têm pouca ou nenhuma relevância para o nosso dia a dia, é o que eu chamei carinhosamente de BigNada.

E falar o que do BigData? Temos que olhar o tema com cuidado, pois fazer concatenação ou OLAP de um monte de “nada” vai se resumir em “um nada” elevado ao quadrado ou na minha analogia o BigNada.

O estudo que me referi teve como alvo o armazenamento de vídeos, mas li recentemente uma pesquisa sobre BigData que afirmava que em 2010, empresas norte-americanas de mais de 1.000 funcionários armazenariam cada uma, em média, mais que 200 terabytes de dados em apenas 1 ano comercial. Se esta firmação não for uma bobagem (hoax) incentivado por fabricantes de TI, estamos com sérios problemas na mão. E mesmo soluções de storage avançadas com recursos de compressão e de duplicação não serão suficientes para armazenar tudo o que precisaremos.

Ainda sobre a problemática do armazenamento, depois de corretamente classificado, o cliente deverá escolher uma solução para o resgate/restore dos dados. Existem ofertas de acesso on-line (maior TCO) e resgate quase on-line (o Nearline) que possibilita o acesso com uma pequena latência (num TCO bem melhor do que do on-line) e algumas outras possibilidade Off-line tanto através do descongelamento do dado quanto do backup off line convencional.

Definir um SLA de recuperação é importante para balizar o custo da solução. Também é fundamental ter uma política de que determine a retenção e o expurgo dos dados. Outro item que deve ser visto com cuidado é o custo de recuperação dos dados, pois existem soluções que cobram por GB recuperado.

Para finalizar não quero deixar a impressão de que só o custo interessa, existem alguns critérios técnicos e de governança que também devem ser considerados. Segue uma proposta de sequência lógica para direcionar a investigação:

  1. Política de classificação e retenção dos dados (realizar junto com a área de segurança de TI);
  2. Descarte, expurgue, elimine, delete, apague, jogue fora o máximo possível;
  3. Estudo do espectro de soluções disponível vs a necessidade de negócio;
  4. Possibilidade de restrição de acesso – anywhere;
  5. Máximo de benefício pelo mínimo de custo – cuidado com os requisitos;
  6. Não perca de vista aspectos de rastreabilidade (AAA) do conteúdo armazenado.

Uma boa dica é utilizar-se de um framework consagrado pelo mercado para seguir na avaliação de uma solução corporativa é submetê-la(o projeto) ao ciclo do ADM – Metodologia de Desenvolvimento de Arquitetura – do TOGAF 9.1. Sendo que, na fase preliminar será necessário descrever os princípios de arquitetura que serão considerados no estudo da solução e depois validar os direcionadores de negócio…

O mais importante é deixar a definição da solução técnica por último, para não se encantar com features desnecessárias e perder o foco do negócio.

Ser agnóstico com relação a tecnologia é difícil, porém necessário.

Facebooktwittergoogle_plusredditpinterestlinkedinmailby feather

Você pode gostar...

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *