Estratégias para Big Data – você tem uma?
Por Antonio Carlos Navarro Publicado em 03/05/2012Este artigo foi visualizado 4750 vezes.
Inegavelmente estamos vivenciando um verdadeiro tsunami de dados. Provenientes das mais diferentes fontes, eles invadem nossas vidas e alteram a maneira como as empresas comunicam-se com o mercado. Só para citarmos algumas: sensores climáticos, SMS, emails, mídia sociais, fotos, videos digitais, registros em compras online, SACs virtuais, celulares, GPS, e muitas outras. Todos os dias, criamos mais de 2,5 quintilhões de bytes de dados, sendo que 90% destes dados foram gerados nos últimos dois anos. Isto é o que chamamos de Big Data.
Atualmente, as empresas necessitam aproveitar-se desta explosão de dados disponíveis, criando vantagens competitivas para seus negócios. As empresas acumularam na casa dos petabytes de informação durante os últimos anos, e vêem nisto uma grande oportunidade para obterem novas visões sobre seus clientes e o mercado onde atuam. Não por acaso, a pesquisa IBM CIO Study 2011, realizada com 3018 CIOs em 71 países, apontou que 83% dos CIOS entrevistados possuem planos visionários que incluem Business Inteligence and Analytics, buscando aumentar a competitividade de suas empresas.
Um varejista, por exemplo, pode descobrir mais facilmente como a demanda está aumentando para produtos específicos em locais e momentos específicos, e desta forma, podem atender adequadamente este mercado, graças a uma previsão mais precisa e melhor gerenciamento de estoques. Prestadores de serviços da Internet e shoppings virtuais, podem descobrir padrões ocultos na forma sobre como as pessoas usam seus serviços e também as redes sociais, e a partir daí desenvolver novos recursos que auxiliarão as empresas a chegarem mais próximos da necessidade e desejo das pessoas. Outro exemplo é o Instituto de Tecnologia da Universidade de Ontario, que realiza uma vasta análise de dados para obter novos conhecimentos e gerar melhor atendimento ao paciente médico.
Mas como as empresas podem otimizar a utilidade de todos os dados que recebe, transformando-os em informações que poderão lhe trazer alguma vantagem competitiva?
Esta é uma pergunta difícil de responder, em particular no caso das empresas confrontadas por um tsunami de dados. De acordo com recentes pesquisas, de fato, o crescimento de dados da empresa nos próximos cinco anos é estimado em mais de 650%. Pior ainda, cerca de 80% destes dados serão sob forma não estruturada* tornando-os significativamente mais difíceis de serem avaliados e utilizados. Além do grande volume, existem outros desafios para esta análise, como a variedade (dados são disponibilizados sob vários tipos e formatos, como videos, emails, blogs etc.) e velocidade (dados em tempo real devem ser analisados com velocidade extraordinária para permitir-se criar um valor máximo sobre seu conteúdo).
Que tal se você obtivesse uma maneira de tranformar todos esses dados em informação útil, analisá-los sob infinitas maneiras e formas, descobrindo tendências, rastreando problemas emergentes e estabelecendo com mais precisão o que seus funcionários, parceiros comerciais e clientes realmente precisam e querem? Aproveitar-se deste grande volume de dados de forma a impulsionar a inovação e obter um melhor resultado para os negócios – esta é exatamente a proposição de valor do conceito Big Data: o poder de orientar as organizações na tomada de decisões de vários tipos e permitir-lhes prosseguir com confiança.
Neste cenário surge o framework open source Apache Hadoop que permite o processamento de grandes volumes de dados através de um cluster de servidores. Sua arquitetura permite a escalonabilidade horizontal de um a centenas de servidores em cluster. Tem se tornado a ferramenta principal para análise de dados estruturados e não estruturados gerados na Internet. Suas características de solução open source, trazem a este cenário o Linux como um sistema operacional já maduro e pronto para soluções que visam capturar, gerenciar e analisar informações sob diversos aspectos e perspectivas. A IBM mostrou recentemente que seus laborátorios de pesquisas e desenvolvimento tem trabalhado arduamente neste desafio. O IBM Watson que disputou e venceu o programa de perguntas e respostas da TV americana Jeopardy!, mostrou ao mundo uma solução baseada em cluster de servidores RISC Midrange, com sistema operacional Suse, banco de dados DB2 e sua exclusiva tecnologia DeepQA fundada sob o Apache Hadoop e que permitiu ao computador lidar com linguagem natural humana e vencer os principais campeões do programa. Para o desasfio do programa, foram utilizadas mais de 100 técnicas diferentes para analisar-se a linguagem natural, identificar fontes, descobrir e gerar hipóteses sobre um imenso banco de dados, e pontuar as respostas, tornando possível ao Watson identificar a resposta mais precisa e com bom nível de confiança, e tudo em menos de três segundos.
Por sua capacidade de entendimento da linguagem natural e de processar 80 trilhões de operações (teraflops por segundo), o Watson rapidamente tornou-se um sucesso de mídia, mas sua utilização no mundo real apenas começou. A IBM anunciou em Abril de 2012 uma nova solução de servidores otimizados para profunda analise de dados: o novo PowerLinux Big Data Analytcs [1], composto por um cluster de servidores RISC de baixo custo, com até 32 threads simultênos por soquete, Linux RedHat ou Suse e soluções de software fundadas no Apache Hadoop como o InfoSphere BigIngights, direcionado a análise massiva de dados estáticos, e o InfoSphere Stream, com foco na análise de fluxo de dados. O aplicativo InfoSphere BigInsights traz todo o poder do Hadoop e do MapReduce para a análise massiva de dados armazenados. Permite que empresas de todos os portes possam gerenciar dados em larga escala transformando dados em conhecimento de forma simples e amigável.
O aplicativo InfoSphere Streams realiza complexas análises em tempo real, sobre os dados in-motion, ou seja, enquanto fluem dentro da organização. Ao extrair uma visão a partir de dados fluindo na organização, as empresas podem reagir a eventos enquanto ainda estão acontecendo e mudar rumos e resultados. Por exemplo, instituições financeiras podem inspecionar em tempo real o uso do cartão de crédito para detectar e prevenir transações fraudulentas. Ambos tiram proveito da capacidade dos processadores POWER7 para massivo processamento com até 32 threads simultâneos por core, e sua maior capacidade de cache L3 e largura de banda de memória e I/O, superiores à arquitetura x86 de última geração, e que tornam esta tecnologia RISC ideal para o processamento de dados em larga escala.
Se a analise de Big Data é fundamental para o sucesso das empresas, aí está uma solução que pode ajudar a fazer a diferença! [1] PowerLinux Bog Data Analytics: http://www-03.ibm.com/systems/power/software/linux/index.html
Gostou? Curta e Compartilhe!
Comentários
|