O que eu gostaria de saber sobre Big Data quando comecei

Publicado por Karla Garcia no dia dev

Big Data

Aqui na Resultados Digitais temos uma solução de BI (Business Inteligence) que utiliza Data Warehouse para criar e organizar relatórios que são disponibilizados aos clientes. Pensando em evoluir essa solução resolvemos estudar os fundamentos de Big Data para saber se este poderia vir a ser uma opção de melhoria.

É comum ouvirmos falar sobre Big Data, isso se deve ao reconhecimento da importância dos insigths que podem ser obtidos através dos dados. O termo está tão disseminado que já é discutido até mesmo em mídias não especializadas em tecnologia como a Revista Exame e o portal Terra. Em 2012, o Governo dos Estados Unidos anunciava o emprego de Big Data como forma de fortalecer a segurança nacional e transformar o ensino e o aprendizado.

Porém, mesmo após esta popularização, ainda existem alguns pensamentos equivocados, o mais comum é Quantidade de dados é a única coisa que importa. A seguir são apresentados conceitos básicos associados ao Big Data. Não irei apresentar ferramentas, o objetivo é entender os fundamentos para que possamos avaliar quando usar.

Tipos De Dados

Os tipos de dados podem ser classificados em:

  • Estruturados: Dados com alto grau de organização, sendo possíveis de serem representados através de linhas e colunas que podem ser facilmente ordenadas e processadas por algoritmos simples.
  • Não estruturados: Dados que não possuem uma estrutura interna identificável, como por exemplo arquivos em formato pdf, vídeos, áudios, postagens em mídias sociais, email, etc… Dispositivos como sensores, tablets, celulares são exemplos de fontes desses tipos de dados. A Internet das Coisas também tende a contribuir consideravelmente com a geração deste tipo de dados.

Há alguns anos tinhamos praticamente apenas dados estruturados, hoje 85% dos dados produzidos são do tipo não estruturados.

O Que Define Big Data

Para descrever o aumento de dados gerados pela sociedade e coletados por organizações, empregou-se o termo Big Data. Este tem sido utilizado com sucesso em diversas áreas, como política, vendas, ferramentas de busca e até mesmo no esporte, afinal discute-se que o segredo da Alemanha para ganhar a copa de 2014 foi o uso de ferramentas de Big Data. A primeira característica que vem a mente quando falamos em Big Data é a grande quantidade de dados, entretanto este é baseado em três dimensões: Volume, Variedade e Velocidade, conhecidas como os 3 V’s.

A Associação TechAmerica define Big Data como:

Big data is a term that describes large volumes of high velocity, complex and variable data that require advanced techniques and technologies to enable the capture, storage, distribution, management, and analysis of the information. (TechAmerica Foundation’s Federal Big Data Commission, 2012)

  • Volume corresponde à magnitude dos dados que pode variar conforme a frequência e o tipo de dados que são gravados. Além disso, o que é considerado Big hoje pode mudar em um futuro próximo devido ao aumento da capacidade de armazenamento.
  • Variedade está relacionada a heterogeneidade do repositório dos dados.
  • Velocidade se refere à taxa com que os dados são gerados e a velocidade que os mesmos devem ser analisados e apresentados. Dispositivos digitais, como smartphones e sensores, são responsáveis por um elevado crescimento da taxa de criação de dados que demandam análise em tempo real. Sistemas tradicionais de gerenciamento de dados não são capazes de lidar com a recepção dessa enorme quantidade de dados instantaneamente. É aqui que entram as tecnologias de Big Data possibilitando as empresas criarem inteligência em tempo real.

Em adição aos 3 V’s, outras dimensões tem sido citadas:

  • Veracidade: Corresponde a casos onde a confiabilidade dos dados não é garantida, como casos de mensagens em mídias sociais. Essa é outra atribuição de Big Data, lidar com dados incertos através de ferramentas e análises para gestão e mineração destes dados.
  • Variabilidade: A variação na velocidade dos dados, tendo momentos de taxas altas e baixas.
  • Valor: O dado por si só não agrega nada, o valor é obtido através da análise de um grande volume de dados.

Ciclo De Vida Dos Dados

O potencial do Big Data só é aproveitado quando utilizado para conduzir a tomada de decisão. Logo, além dos dados é necessário um processo eficiente para poder-se obter, de um grande volume de dados diversos e dinâmicos, insights significativos.

O processo de extração de informações de Big Data podem ser divididos em cinco fases:

  • Aquisição: As fontes de dados geram uma grande quantidade de informação, sendo muitas delas inúteis e esse é o grande desafio desta etapa: aplicar filtros que descartem informações inúteis, sem perder as relevantes. E esses filtros devem ser aplicados em real-time, pois seria muito custoso armazenar todos esses dados para depois excluir.
  • Extração: Os dados adquiridos e filtrados normalmente não estão prontos para leitura. Conforme mencionado anteriormente, os dados existem em diversos formatos: áudio, vídeo, texto, entre outros. Isso exige que seja aplicada uma Estratégia de Extração que integre dados originados de diferentes repositórios em um formato que possa ser consumido. Extract-Transform-Load (ETL) é o processo que cobre todo o estágio de coletar os dados, ajustá-lo ao formato apropriado e armazená-los.
  • Análise: Avanços tecnológicos estão tornando possível e rentável a análise de dados não estruturados. Computação distribuída utilizando arquitetura facilmente escalável, frameworks de processamento de grande massa de dados não relacionais e paralelismo em bancos de dados relacionais estão redefinindo a governança e gestão de dados.
  • Interpretação: O aspecto mais importante no sucesso de um sistema Big Data é a apresentação dos dados em um formato inteligente, amigável e reutilizável.

Conclusão

No momento nossa solução de BI opera apenas com dados estruturados, logo considerando os 3 Vs, não justifica a adoção de Big Data. Porém nossos clientes utilizam bastante redes sociais e futuramente podemos começar a capturar e analisar dados originados dessas fontes. Mesmo não adotando essa solução, consideramos relevante apresentar o conhecimento adquirido e esclarecer que Big Data não deve ser associado apenas à Volume de dados. Quando pensar em adotar Big Data, é importante lembrar, ao menos, dos 3 Vs: volume, velocidade e variedade.

Que tal você compartilhar um pouco da sua experiência com Big Data nos comentários abaixo?
Contribuições são sempre bem vindas!

Referências:

Karla Garcia

Karla Garcia

Developer

Comentários