A importância das dimensões 5V’s

A eclosão do Big Data, conjunto de dados muito grande ou complexo, que tradicionalmente possui difícil processamento, culminou no conceito de 5V’s, que são: Volume, Velocidade, Variedade, Veracidade e Valor.

Quando uma parcela desta robusta base de dados é lapidada, se torna em um bem imensurável para muitas empresas. Não é difícil entender este fato, a partir do momento que percebe-se um cenário de competitividade feroz, exigindo-se das companhias um pleno entendimento de seu negócio, e da dinâmica concorrencial.

A área de Inteligência de Mercado ou Business Intelligence (BI) fomenta as informações necessárias para tais entendimentos, aplicando-se ferramentas como, Excel, SQL , Power BI e muitas outras, para a elaboração e criação de estudos, análises, relatórios e dashboards, mas tendo sempre como pilares, as dimensões 5V’s do Big Data.

1. O significado de cada V

Os 5V’s trabalham de forma harmônica, ou seja, todas as dimensões devem ser tratadas com igual prioridade, para gerarem qualidade informacional.

1.1 Volume


Atualmente 90% dos dados gerados no planeta são somente dos últimos 4 anos. Segundo estudos da Business Software Alliance (BSA) disponibilizado recentemente, estimasse que cerca de 2,5 quintilhões de bytes são gerados diariamente, isto é o suficiente para gravar 10 milhões de disco Blu-ray, tomando-se como referencial um disco de 25 Gb (camada simples).

Os dados basicamente podem ser divididos em dois tipos, estruturados e não estruturados.

a) Estruturados

Os dados estruturados são aqueles que podem ser acessados e processados com facilidade, pois possuem um formato colunar, ou seja, com disposição em colunas, formando-se uma matriz. Podemos encontrar este padrão em banco de dados e planilhas.

b) Não Estruturados

Este tipo de dado é o mais gerado no mundo, são basicamente, mensagens de texto, imagens, vídeos, áudios e e-mails, sendo a maior parte deste conteúdo oriundo de redes sociais, como, Facebook, Instagram, Twitter e outras, ou  aplicativos de comunicação, como, WhatsApp.

A dificuldade de extrair e manipular informações relevantes deste tipo de conteúdo é um desafio para os Cientistas de Dados, pois em muitos casos são exigidos conhecimentos específicos, como por exemplo, algoritmos de análise de sentimentos e emoções.

Quando avaliamos, o volume de informação gerado em uma empresa, devemos ter em mente que nem sempre uma planilha em Excel irá atender a necessidade de capacidade e armazenagem, sendo necessário na maioria dos casos, tecnologias mais robustas e específicas, como por exemplo, SQL ou Cloud, com o Azure. Além disso, os dados estruturados, são advindos geralmente de um Data Warehouse, já os não estruturados, podem ser encontrados em Data Lakes.

Obs.: Existe uma outra categoria que são os dados semi estruturados, geralmente são informações que possuem algum tipo de tag ou marcador para delimitar uma certa organização de informações, como por exemplo, os formatos XML, que são baseados em linguagens de dados mais antigas como o HTML.

1.2 Velocidade


Estimasse que o índice de tráfego na Internet em 2018 será de 50.000 Gb/segundo. Para termos uma noção disto, em 60 segundos é o equivalente a, 72 horas de vídeos no YouTube carregados, 216.000 mensagens no Instagram postadas, 277.000 tweets ou 204.000.000 e-mails enviados.

A dimensão da velocidade nas empresas deve ser analisado com cuidado, pois deve-se verificar a periodicidade das atualizações informacionais e a necessidade de consumi-las em tempo real. Para uma compra de ingresso em um cinema, um estoque em um site de compras ou uma validação de um crédito para comprar algo, existe a necessidade de uma velocidade em tempo real, mas para uma apresentação de um relatório de performance de uma equipe, ou uma avaliação de setup de máquina, nem sempre existe esta exigência.

1.3 Variedade


Atualmente, variedade de informações esta intimamente relacionado com o volume, pois são gerados diversos tipo de conteúdos, como áudio, vídeo, imagem e mensagem de texto, diariamente nos diversos meios de comunicação.

De acordo com estudos da PwC Brasil, cerca de 80% das informações geradas e manipuladas em uma empresa são do tipo não estruturadas, aquelas que possuem um acesso e processamento mais complexo, e isto é um entrave, que esta sendo contornado com novas tecnologias, como o Hadoop e Azure, por exemplo.

Quando avaliamos a variedade, estamos nos referindo a uma análise plural, ou seja, que envolvem os diferentes tipos de conteúdos, para extrair destes, padrões e comportamentos, que muitas vezes podem ser úteis. Por exemplo, o hospital 9 de Julho em parceria com a Microsoft implantou um sistema de câmeras, para coletar dados de pacientes em maca, e criar mecanismos que previnam acidentes com quedas, aplicando-se técnicas de Machine Learning.

1.4 Veracidade


Estudos mostram que 1 em cada 3 gestores de negócios não confiam nas informações geradas em suas empresas, para uma tomada de decisão, e por este motivo alguns agem de acordo com suas intuições, o famoso feeling. Sabemos que esta atitude é mais um “tiro de sorte” do que uma real convicção, já que as ações não estão sendo pautadas em informações analíticas confiáveis, mas sim em sentimentos.

Quando lidamos com a veracidade das informações estamos constantemente questionando, a origem dos dados, a forma que foram coletados, os métodos aplicados para tratamento, e a modelagem. Este conjunto de cuidados e preocupações, quando bem esclarecidos para uma equipe, sustentará o que chamamos de confiabilidade informacional.

1.5 Valor


O Valor do Big Data é perceptível para a maioria das empresas em um horizonte de médio a longo prazo, visto que, o “caminho a ser trilhado” é cheio de percalços, necessita de uma base histórica,  constante aprendizado e remodelagem do problema, já que o mercado é dinâmico, e as tecnologias que a envolvem também.

Quando nos referimos a Valor, não estamos somente nos balizando em lucro e/ou redução de custos, que uma empresa terá com a implantação do projeto, mas sim no ganho de produtividade como um todo, seja com relatórios automáticos ou com a geração de insights, isto é, descoberta de novas perguntas e respostas, através de softwares de BI, como: Excel, Power BI, Tableau, Qlik View e outros.

2. Considerações Finais

Como podemos perceber, estas 5 dimensões regem o universo do Big Data, e quando bem alicerçadas em um projeto de BI, trazem benefícios incalculáveis a uma empresa, seja em questões financeiras, ou na otimização de recursos e tempo.

Portanto, um projeto de BI, será um guia para tomadas de decisões a nível estratégico, no qual objetiva uma melhoria continua nas análises e geração de insights, para um entendimento do negócio e assertividade na resolução de problemas, com o intuito de sempre estar um passo a frente da concorrência.

Espero que tenham gostado, bons estudos!

Deixe uma resposta

%d blogueiros gostam disto: