O ferramental de integração de dados está partindo para sua terceira geração. Já ouviu falar em DataOps?
Já tratamos aqui de diversos aspectos da tecnologia de análises, das aplicações nos negócios, do papel do cientista de dados e de outros profissionais de dados (engenheiros, arquitetos entre outros), assim como do crescimento constante, consistente e cada vez mais acelerado do volume, variedade e velocidade de dados.
Estes elementos estão inseridos em um contexto tecnológico onde a velocidade de evolução das soluções é, sem dúvida alguma, maior do que a capacidade que muitas organizações têm de acompanhar o lançamento de novos componentes; quem dirá sobre a forma como organizam as atividades de análise de dados, aplicação de conhecimento em seus processos e formação de pessoas.
Soma-se a isso o estabelecimento de métodos e dinâmicas para obtenção e tratamento de dados que não atendem mais à incerteza dos negócios e o fato de que cada vez mais são geradas informações com menor controle, menos estrutura e menor preocupação com o será feito com elas. Temos, então, um cenário de saturação em relação aos benefícios que podem ser extraídos da informação em curto prazo, ou seja, cada vez leva-se mais tempo para organizar as informações que irão subsidiar análises e suportar decisões de negócio.
Neste cenário, alguns princípios e elementos ainda são válidos, mesmo que em escalas muito diferentes das existentes na época de Bill Inmon ou de seu antagonista, Ralph Kimball, assim como algumas abordagens e tecnologias inovadoras e absolutamente necessárias atualmente – que em muitos casos, eram realmente dispensáveis na época em que estes dois senhores começavam a popularizar a prática de Data Warehousing e Business Intelligence.
O que ainda não mudou?
Priorizar e entregar de valor ao negócio (e não simplesmente usar a tecnologia pela tecnologia). Por mais que hoje em dia seja tentador usar o enorme ferramental à disposição, muitas vezes de forma gratuita na Internet, os benefícios aos processos de negócio, aos cidadãos ou à cadeia produtiva (entre outros) não pode ser colocado em segundo plano. Caso contrário, corre-se o risco de investir recursos que escassos na busca do ‘prego mais bonito’, quando o problema pode ser resolvido por um parafuso.
Entender a estrutura e conteúdo de suas fontes de dados e balancear o investimento em tratar, ajustar e combinar dados em elementos de análise, por mais inovadoras que as fontes e origens de dados possam ser (por exemplo, imagens de satélite, dados de telemetria, ocupação de linhas de produção em fábricas etc). É sempre importante entender o significado dos dados para que seja possível planejar – não só a eventual mecânica de separação de ‘ruído’ e de ‘informação’, mas também a melhor engenharia para ingestão desta informação (exemplo: usando arquivos, trazendo apenas atualizações, controlando fluxo de dados etc).
Definir objetivos de longo prazo, entregando resultados rapidamente e com capacidade de expansão, já que para quem não sabe seu destino, qualquer caminho é válido. Isso implica na incapacidade de medir retorno sobre investimento de recursos (seja em pessoas, ferramental ou serviços) se os objetivos ou direção não estiverem ao menos alinhadas com o grupo que realiza as análises.
Organizar equipes de trabalho multidisciplinares, uma vez que a miríade de tecnologias, processos, áreas de conhecimento, detalhes de operações, riscos e visão de negócio ainda não são conseguidas de forma efetiva e escalável em apenas um departamento da empresa, ou em apenas um “super-herói”.
Priorizar indivíduos e interações sobre processos e ferramentas, já que não há receitas prontas para o sucesso, ferramentas totalmente inteligentes e mecanismos não-supervisionados de identificação de ruído em dados dispersos suficientemente bons para serem usados de forma automática.
Possuir uma metodologia interativa e evolutiva para a realização de análises e aplicação de resultados. Aplicar tecnologia em grande escala para resolver problemas sem métodos (adotando apenas a “força bruta”) é apenas garantia de consumo de recursos humanos e computacionais. Métodos como o de “Processos Industriais para Mineração de Dados” (ou CRISP-DM – em Inglês) ainda suportam de forma bastante completa a geração de insights mesmo em situações extremamente inovadoras, onde a equipe possui conhecimento específico limitado da indústria ou do problema em questão.
O que vem por aí?
O ferramental de integração de dados está partindo para sua terceira geração. A primeira geração focou em extração, transformação e carga de dados (ou “ETL” – Extract, Transform & Load, em Inglês).
Como a transformação gradativamente demonstrou-se subestimada pelas empresas e organizações, a segunda geração incorporou aspectos e componentes de qualidade, padronização e enriquecimento de dados.
Já a terceira geração de ferramentas reconhece as limitações de gestão de elementos de dados de alguns sistemas internos das empresas e novas fontes de informação, focando na curadoria de dados, de forma escalável e replicável. Além disso, muitas vezes incorpora elementos e algoritmos de Inteligência Artificial no reconhecimento de padrões e potenciais combinações, visando aumento de qualidade e usabilidade de dados, além de integrar capacidades de ‘expert sourcing’ (e não simplesmente crowdsourcing) para validação, ou mesmo curadoria de regras de tratamento de dados em casos específicos.
Além dos mecanismos de ingestão de dados, outra discussão que está cada vez mais madura é a constatação de que vale mais a pena catalogar a informação e os elementos de dados que serão usados para a realização de análises e tomada de decisão, e não apenas consolidar, harmonizar e padronizar dados que em alguns casos não são ‘harmonizáveis’ entre departamentos e áreas das empresas.
Isso leva a uma abordagem comum, mas em alguns casos mal interpretada (ou mal implantada) nos ambientes com tecnologias de big data que se chama de “schema on read”. Esta abordagem diz respeito à organização dos dados (o “schema”) ser dependente de seu uso (“on read”), e não é a forma como tipicamente os dados são organizados em sistemas e arquiteturas de Business Intelligence, chamada de “schema on write”, que busca organizar as informações para serem armazenadas, independente de como ou por quem serão utilizadas, e que depende de um esforço complexo, corporativo e em muitos casos pouco sucedido de padronizações de dados em toda empresa.
Outras novidades que estão ganhando o dia a dia prático na resolução de problemas envolvem Inteligência Artificial e correlatos, mas abordaremos mais sobre eles em outros artigos.
A melhor forma de organizar os princípios que ainda não mudaram com o que está vindo por aí até o momento chama-se DataOps. É a combinação de técnicas, tecnologia e processos ágeis, inovadores e em alguns casos disruptivos, visando suportar a entrega de insights que impactem o negócio e a vida de cidadãos em qualquer lugar do mundo.
Princípios de DataOps
Compartilho aqui a lista dos dezoito princípios do Manifesto DataOps que orientam o desenvolvimento de novas tecnologias e estão, pouco a pouco, sendo adotados por algumas organizações ágeis (como Startups) e tendem a começar a fazer parte do mundo corporativo em menos tempo do que imaginamos.
1. Satisfaça continuamente seu cliente
A maior prioridade é satisfazer o cliente por meio da entrega rápida e contínua de insights analíticos valiosos, de alguns minutos até semanas.
2. Valor da análise de trabalho
A principal medida do desempenho da análise de dados é o grau em que as análises perspicazes são fornecidas, incorporando dados precisos em estruturas e sistemas robustos.
3. Abraçar a mudança
A necessidade dos clientes em evolução é a motivação e, na verdade, necessária para gerar vantagem competitiva. O método mais eficaz e ágil de comunicação com os clientes é o diálogo cara a cara.
4. É um esporte de equipe
As equipes analíticas sempre terão uma variedade de papéis, habilidades, ferramentas favoritas e títulos.
5. Interações diárias
Clientes, equipes analíticas e operações devem trabalhar juntos, diariamente, durante todo o projeto.
6. Auto organizar
A melhor percepção analítica, algoritmos, arquiteturas, requisitos e projetos emergem de equipes auto organizadas.
7. Reduza o heroísmo
À medida que o ritmo e a amplitude da necessidade de insights analíticos aumentar, as equipes analíticas devem se esforçar para reduzir o heroísmo e criar equipes e processos analíticos de dados sustentáveis e escaláveis.
8. Reflita
As equipes analíticas devem ajustar seu desempenho operacional por meio da autorreflexão em intervalos regulares, e pelo feedback fornecido por seus clientes e estatísticas operacionais.
9. Analytics é código
As equipes analíticas usam uma variedade de ferramentas individuais para acessar, integrar, modelar e visualizar dados. Fundamentalmente, cada uma dessas ferramentas gera código e configuração que descreve as ações tomadas nos dados para fornecer insights.
10. Orquestrar
Todo o ciclo, do começo ao fim da orquestração de dados, ferramentas, códigos, ambientes e o trabalho das equipes analíticas é um fator chave do sucesso analítico.
11. Torná-lo reprodutível
Resultados reproduzíveis são necessários e, portanto, tudo precisa ser “versionado”: dados, hardware e configurações de software, o código e configuração específica para cada ferramenta na cadeia de ferramentas.
12. Ambientes descartáveis
É importante minimizar o custo para os membros da equipe analítica experimentar, possibilitando a criação de ambientes técnicos descartáveis, isolados e seguros que refletem seu ambiente de produção.
13. Simplicidade
A atenção contínua com a excelência técnica e bom design aumenta a agilidade; da mesma forma a simplicidade – a arte de maximizar a quantidade de trabalho não feito – é essencial.
14. Analytics é fabricação
Os fluxos analíticos são análogos às linhas de produção enxutas. Um conceito fundamental de DataOps é um foco no processo de pensamento visando alcançar a eficiência contínua na geração de insights analíticos.
15. A qualidade é primordial
Pipelines analíticos devem ser construídos com uma fundação capaz de detectar automaticamente anomalias (jidoka) em código, configuração e dados, e fornecer feedback contínuo aos operadores para evitar erros (poka yoke).
16. Monitorar qualidade e desempenho
O grande objetivo é ter medidas de desempenho e qualidade monitoradas continuamente para detectar variações inesperadas e gerar estatísticas operacionais.
17. Reutilização
Um aspecto fundamental da eficiência da fabricação de insights analíticos é evitar a repetição do trabalho anterior por parte do indivíduo ou da equipe.
18. Melhorar os tempos de ciclo
As equipes devem se esforçar para minimizar o tempo e o esforço para transformar a necessidade do cliente em um produto analítico: criá-lo em laboratório, liberá-lo como um processo de testes produtivo e, finalmente reutilizar esse produto como acelerador para implantação de novas necessidades”
Estude, aprenda, teste, conecte-se e busque a combinação que funciona para você entre seus conhecimentos, as habilidades de sua equipe de trabalho e as tecnologias que estão inundando nosso panorama.
Autoria: Daniel Lázaro