segunda-feira, 3 de outubro de 2016

PRTG 2016 – monitoração da infraestrutura ampla e versátil, teste detalhado em situação real!

A criticidade dos recursos de TI só se torna mais importante a cada momento. Os negócios estão cada vez mais “digitais”, mesmo que o objeto da empresa não seja ligado à tecnologia. Não há negócio que não dependa fortemente de recursos informatizados e também de conectividade. Dias atrás eu me aprofundei nesta análise no texto “PRTG 2016 – manter seu negócio 100% operacional é absolutamente crítico” chamando a atenção para as causas, muitas vezes prosaicas, que causam anomalias ou interrupções dos recursos de TI e o impacto que isto causa nas organizações. Aliás, independentemente do porte da empresa, da padaria à empresa petrolífera!!



figura 01 – Analisar os processos de negócio é fundamental

Tenho contato com ferramentas para auxiliar na solução destes problemas há um bom tempo. Tive a grata oportunidade de testar uma delas anteriormente, o PRTG, por duas vezes: em 2012 escrevi “PRTG – monitorando totalmente sua rede e infraestrutura” e em 2014 “PRTG – monitorando ainda mais de perto a infraestrutura crítica”. Quando surgiu a oportunidade de testar o PRTG pela terceira vez, isso se tornou bastante desafiador. Ao contrário do que poderia parecer, pelo fato de eu já conhecer bem a ferramenta, nesta terceira ocasião eu me determinei a realizar uma análise ainda mais minuciosa, explorando recursos que não experimentara antes e também tendo muita atenção nas novidades que surgiram nos últimos anos. Isso porque o PRTG está em franca evolução, novidades e atualizações surgindo a cada poucos meses.

Não vou explorar o PRTG em sua totalidade neste artigo para que não seja repetitivo. Mas alguns conceitos trago de volta por sua importância. Também procuro relatar a minha experiência nos meses que venho usando o produto (não há como interromper seu uso fruto da imensa utilidade) e as novidades da ferramenta. Algumas informações a mais podem ser vistas nos artigos anteriores.

A alma do PRTG – os sensores
   
O ponto central de interesse e de análise do PRTG é chamado de sensor. Hoje em dia, como se tem falado cada vez mais em Internet das Coisas (IoT – sigla em inglês) o termo sensor é mais compreendido. Fazendo a analogia, se em uma fábrica há sensores nas esteiras de produção, temperatura do ambiente, nível de umidade (importante para certos processos de fabricação), da mesma forma em uma UTI o paciente tem monitorados temperatura, pressão, batimentos cardíacos, nível de oxigenação, etc. , tudo aquilo que é CRÍTICO.

No ambiente de TI, não é difícil enumerar os elementos que necessitam de acompanhamento para análise, diagnósticos, procedimentos preventivos, corretivos, etc. Esta é a grande riqueza do PRTG! Existe uma diversidade de sensores que vai além do óbvio e que permitem monitorações de cenários bastante complexos. E a cada nova versão da ferramenta, novos tipos de sensores são apresentados bem como funcionalidades periféricas ao mundo da monitoração, mas que tornam o trabalho muito mais fácil.

figura 02 – visão geral do ambiente sendo monitorado (clique para ampliar)

Há sensores para muitos pontos de interesse como monitoração de hardware, ambientes de software, rede, tráfego de dados, etc. O produto é licenciado pela quantidade de sensores que podem ser usados. Se forem usados sensores em quantidade mais elevada (por isso é importante avaliar a real necessidade) será necessário adquirir uma licença que suporte mais sensores (maior valor). E se sensores demais forem definidos no ambiente de monitoração o painel do PRTG fica muito carregado e difícil de identificar o que realmente é mais essencial para ser analisado. Precisa ser encontrado o equilíbrio entre a quantidade, a qualidade e a capacidade e avaliar as informações, mas o PRTG ajuda nessa tarefa.
 
Não faz sentido enumerar aqui todos os tipos de sensores do PRTG, pois são centenas! Provavelmente os mais óbvios são o sensor de “presença” (resposta ao comando PING), nível de uso de CPU, espaço livre em disco, tempo em atividade, páginas impressas, etc. Mas há sensores bastante especializados que monitoram aplicações específicas como SQL Server, Microsoft Exchange, servidor Web, etc.


figura 03 –exemplo de monitoração de Microsoft Exchange – vários sensores  (clique para ampliar)

Isto é particularmente interessante e muito útil, pois os serviços de um servidor Windows podem ser monitorados, quaisquer que sejam necessários e desejados. Na tela abaixo podem ser vistos alguns serviços que escolhi monitorar em um dos servidores, mas além disso, o PRTG permite que se configure, caso um serviço esteja interrompido, ele será reativado. Assim não apenas o PRTG avisa se um serviço parar, indicando uma anomalia a ser resolvida, como também toma uma ação corretiva!
   


figura 04 –exemplo de monitoração de serviços do Microsoft Windows Server  (clique para ampliar)

Neste servidor em particular o serviço “Netlogon” estava parando em momentos não previstos e isto impedia os usuários acessarem as pastas compartilhadas da rede (servidor de arquivos). Usei o recurso do PRTG para que o alarme fosse disparado neste caso, mas também o serviço seria reativado para minimizar a indisponibilidade para os usuários. Ao mesmo tempo monitoração e neste caso solução de um problema (indisponibilidade de arquivos).

Já que comecei a relatar a minha experiência, vamos descrever como foi feito o teste.

O teste

O teste de 2014 foi feito em um ambiente complexo, infraestrutura distribuída em várias localidades. Parti deste ambiente, um conceito parecido, mas ampliei os pontos de monitoração para que pudesse estressar mais seus recursos e novas funcionalidades. Segue abaixo a descrição do ambiente utilizado agora em 2016:
  • 10 localidades remotas
  • 22 servidores físicos
  • 25 servidores virtuais
  • 21 links de Internet
  • 36 pontos de acesso WiFi
  • 26 impressoras de rede
  • 8 roteadores  de Internet com recurso load-balancing (balanceamento de carga)
  • 2 roteadores de Internet com recurso fail-over (link backup)
  • 30 switches
  • Mais de 600 usuários em todas as localidades

Se não representam uma infraestrutura de uma imensa corporação, com certeza não se pode associar a uma empresa muito pequena. A implantação inicial requer um servidor que não precisa ser dedicado. A Paessler recomenda que se estiverem mais de 2500 sensores estiverem em uso, convém ter um servidor específico (físico) para a função. Para ambientes menores usar uma máquina virtual não interfere. A Paessler indica em seu site os requisitos para uma boa implantação, veja aqui: https://www.paessler.com/prtg/requirements .

Neste caso foi usado um servidor de arquivos baseado em Windows Server 2008 R2 rodando em ambiente virtualizado (vSphere 5.5) monitorando um pouco mais de 1500 sensores.

A simplicidade da instalação é surpreendente! Por motivos diversos ao longo do tempo do teste precisei remanejar o servidor do PRTG 6 ou 7 vezes (motivos internos à empresa e não por causa do PRTG). Parecia ser um pesadelo ter que reconfigurar 10 localidades remotas e MAIS DE 1500 sensores, mas isso foi relativamente simples, rápido e prático.

O PRTG esteve em uso por mais de 4 meses neste ambiente, que me permitiu compartilhar com os leitores toda esta experiência!

Configuração inicial

Foi instalado o PRTG na sede da empresa, local onde sua infraestrutura é ampla e mais complexa. Utilizei o recurso “Auto-Discovery” que vasculha a rede, acha dispositivos e em função da política escolhida aloca sensores básicos ou detalhados. Usei o modo “sensores básicos” e centenas de dispositivos foram localizados, incluindo os computadores de usuários. É possível selecionar dezenas de dispositivos de uma só vez e exclui-los uma vez que não são necessários e foi isso que eu fiz quando  foi preciso.

Em alguns dos servidores que tiveram cerca de 10 sensores alocados, executei novamente o Auto-Discovery com opção para alocar mais sensores e assim obter mais pontos de análise que foram adicionados. Em alguns servidores foram ativados 20, 30 ou até mais sensores. Nesta hora entra a sensibilidade do administrador do PRTG. Cabe a ele rever e de fato manter apenas aquilo que lhe é mais importante. Também de forma simples os sensores não essenciais são selecionados e eliminados de uma vez só. É comum no início querer ter sensores de tudo e para tudo. Mas isso não é útil e pode até atrapalhar.

Fazendo uma analogia com a UTI médica, que utilidade tem de saber constantemente o comprimento do braço do paciente? Ou no caso de um servidor, quantas vezes o arquivo de paginação de memória virtual foi usado? Salvo se este servidor estiver apresentando lentidão extrema... Essa é a beleza do PRTG, ele tem tantos tipos de sensores que na hora de um evento, que necessite estudo e análise, sensores podem ser alocados neste momento, usados e depois desativados. Penso que no dia a dia deve ser monitorado aquilo que de fato é relevante para aquele ambiente.

Vale destacar que desde a última versão que testei, percebi que o Auto-Discovery da versão de 2016 ficou mais amigável! Os dispositivos são automaticamente inseridos em um grupo chamado Network-Discovery e em subgrupos bastante apropriados como Servidores, Network, Virtual Systems, Impressoras, etc. Assim a análise pós descoberta dos sensores se torna muito simples e cada dispositivo pode ser movido para o grupo desejado, por exemplo, criado pelo administrador.

Sondas Remotas

Desde o teste anterior (2014) eu já estava usando este recurso. Para melhor compreensão vou usar uma comparação. As agências espaciais europeia, chinesa ou americana (NASA) quando precisam estudar um asteroide, planeta, cometa ou qualquer astro longínquo mandam uma nave não tripulada para lá, também chamada de sonda. Uma vez que ela aterrissa no local (ou entrou em órbita), de tempos em tempos as informações que se deseja acompanhar ou estudar são transmitidas para o centro de controle da missão. Exatamente este é o conceito das sondas remotas do PRTG.

Como localidades remotas, filiais, escritórios em outros endereços não têm obrigatoriamente conectividade VPN ou canais dedicados (como MPLS) com a matriz, local onde está instalado o núcleo do PRTG, o conceito de sonda se aplica incrivelmente bem. Afinal o acesso ao servidor PRTG se dá também por meio da Internet/NAT. Trata-se de uma aplicação extremamente leve, que instalei em pequenos servidores locais ou mesmo em simples estações de trabalho (PCs com processador Intel Core i5, por exemplo). Importante citar que se o ambiente remoto fosse extenso (milhares de sensores), o processamento da sonda seria mais pesado o poderia requerer um computador dedicado. Existem medidas de segurança muito fortes para evitar que a sonda seja usada de forma indevida (espionagem). Ao ser instalada é necessária uma senha gerada para ela, o IP de acesso tem que ser previamente cadastrado e, além disso, a sonda tem que ser aprovada no console do PRTG.

Lembrete importante. No ponto central a porta TCP 23560 deve ser aberta no Firewall e redirecionado o tráfego desta porta para o servidor que executa o PRTG (Core Server). Eu precisei modificar esta porta porque ela conflitava com um serviço local existente. Não achei opção no gerenciador do PRTG, mas no site de suporte  existe um guia para trocar a porta TCP por outra usando o editor de registro do Windows (REGEDIT), tanto no Core Server como na máquina que executa a sonda remota.
   


figura 05 –Sonda remota 

Uma vez que a sonda esteja instalada e aprovada o administrador do PRTG pode solicitar que um “Auto-Discovery” aconteça na rede remota para localizar dispositivos, alocar sensores, assim como na instalação do núcleo central do PRTG ou permitir que sensores sejam definidos manualmente. Dessa forma os escritórios remotos têm o mesmo nível de atenção e monitoração que o ponto central. Muito simples e  eficiente!! Gostei muito disso.

Algo diferente aconteceu dessa vez em relação ao teste de 2014. Naquela ocasião eu fiz atualização o núcleo do PRTG, uma versão mais nova (pelo menos uma vez). Após a mudança de versão as sondas remotas ficaram imediatamente indisponíveis. Consultado o suporte (que sempre funcionou muito bem e de forma muito objetiva), fui informado que as sondas perdem conexão até que nova as sondas sejam também atualizadas e que isso acontece de forma automática. De fato, naquela ocasião das 7 ou 8 localidades remotas, 1 ou 2 já tinham resolvido o problema de forma autônoma. Mas como na época eu não quis esperar, por meio de acesso remoto às localidades eu reinstalei as sondas, local a local e tudo ficou bem. Porém dessa vez, foi bem mais simples. Atualizei a versão do PRTG pelo menos 2 vezes ao longo do teste e nenhuma sonda perdeu comunicação por momento algum (antes da atualização automática)! Muito mais amigável e sem perda de informação!

Sondas Móveis ou mini sondas

Smartphones podem ser utilizados de forma bastante inovadora dentro do ambiente da empresa fazendo o papel de mini sondas e acumulando informações adicionais bastante interessantes. Neste momento aparelhos com sistema operacional Android podem ser utilizados. As informações que estão disponíveis são:
  • Nível de sinal de WiFi
  • Geolocalização (coordenadas geográficas)
  • Dados ambientais como temperatura, nível de iluminação, etc.      
Isso abre possibilidades muito interessantes! Monitorar o nível de sinal de WiFi por exemplo. Ele pode variar ao longo do tempo por motivos diversos como perda de eficiência do Access Point, variação do número de pessoas no ambiente, alteração do layout do escritório, etc. Dessa forma monitorar a sensibilidade do WiFi e definir alarmes em função de um nível mínimo desejado vai colaborar para manter a qualidade da conexão dentro dos parâmetros pretendidos.


figura 06 –mini sonda – avaliação do WiFi  (clique para ampliar)


figura 07 – mini sonda sendo executada no smartphone

Outro exemplo, o sensor de luminosidade pode ser usado com uma forma simples de saber se há pessoas no ambiente, ou se a luz foi esquecida acesa, ou mesmo se a eficiência da iluminação está aquém de um valor desejável. Coordenadas geográficas, temperatura (se o smartphone tiver este sensor), tempo de conexão em aplicações críticas, isso tudo abre perspectivas muito interessantes e criativas para o uso do PRTG. Trata-se de uma ideia extremamente interessante e muito útil.

A Paessler está avaliando se o recurso de mini-sondas vai permanecer no produto. Pode ser aprimorado ou removido em futuras versões. Eu achei particularmente útil, gostei das possibilidades que ele abre.

Sistema de Tickets – controle de ocorrências
  

Quando o PRTG identifica uma situação de erro ou de alerta, descoberto por meio de seus sensores, além do alarme no painel de controle outras ações importantes também podem ser executadas. Uma mensagem com os dados do alarme pode ser enviada para o endereço de e-mail designado. Se a situação se modificar sem intervenção outro e-mail é enviado notificando que aquela situação se normalizou, por exemplo, uma indisponibilidade temporária de link de Internet, um excesso de consumo de CPU em um servidor, etc.

Mas geralmente o que faz disparar um alarme exige intervenção de um operador ou de um analista de suporte para corrigir o problema. Às vezes pode até ser um alarme mal configurado que exige ajustes nas definições. Por exemplo, não precisa alarmar se o espaço livre no disco cai abaixo de 25% mas é uma boa ideia alarmar quando cai a menos de 10%. Mas de toda forma alguém precisa interceder para resolver a situação do alarme. O PRTG gera alguns Tickets automaticamente, fruto de tarefas ou ações administrativas do próprio PRTG como notificação de término de Auto-Discovery ou necessidade de aprovação de uma sonda remota.
 
Além disso o administrador do sistema pode criar Tickets de suporte relativos aos alarmes disparados. Assim a tarefa de lidar com aquela situação pode ser designada para uma pessoa específica (que tem o conhecimento para lidar com o assunto). Esta pessoa vai receber um e-mail e também quando ela entra no PRTG com seu login aparecerão todas as tarefas que lhe foram designadas. Quem abriu os Tickets pode atribuir 5 níveis de prioridade, assim o responsável fará a sua programação de trabalho baseada nas pendências que lhe foram atribuídas.
    


figura 08 –tickets abertos para determinado usuário  (clique para ampliar)



figura 09 –exemplo da tela de abertura de ticket  (clique para ampliar)


Aplicativo para PC e para dispositivos móveis

A interface natural de utilização do PRTG é o console WEB. Afinal, dessa forma a partir de qualquer computador situado no mundo todo o administrador poderá se conectar ao PRTG e realizar a totalidade das tarefas de monitoração, criação de novos sensores, implantação de sondas remotas, etc.

Porém existe um software para sistema operacional Windows que traz uma interface mais sofisticada e com alguns recursos a mais para visualização. Esta versão também tem como característica disparar alarmes em tempo real, ou seja, quando algo crítico acontece exibir o conjunto de alarmes e alertas para o administrador. Da mesma forma quando um novo ticket de suporte é criado. Portanto a diferença entre a interface Web e a versão Windows vai além do aspecto visual. Existe funcionalidade adicional que é a exibição mais ágil dos alarmes.
  


figura 10 –tela do PRTG Windows  (clique para ampliar)


figura 11 –tela do PRTG Windows  (clique para ampliar)

Da mesma forma existe um aplicativo equivalente para dispositivos móveis. Assim o administrador pode estar informado da saúde de sua infraestrutura onde quer que ele esteja. Mesmo que não tenha um computador para acesso ao PRTG pela Web. Existem versões para iOS, Android e Windows Phone. De uma forma simplificada dispositivos, sondas remotas e localidades podem ser acessados. Usa a mesma notação, cores e padrões visuais para que cada dispositivo ou localidade possa ser avaliado. Aquele elemento que apresenta um alarme pode ser aberto e a cada toque na tela mais detalhes vão sendo abertos até saber o problema. Tickets de suporte podem ser visualizados e alarmes podem ser suspensos temporariamente (uma impressora que entrou em manutenção por 3 dias o sensor pode ser suspenso por este tempo para que não gere alarmes nestes dias).

O PRTG permite que notificações mais sensíveis sejam entregues imediatamente ao aplicativo. Normalmente é feito um “refresh” de status dos sensores a cada “x” segundos. Mas pode ser configurado para que se uma determinada situação ocorrer, um sistema de entrega de informação via PUSH ( https://kb.paessler.com/en/topic/60892-how-can-i-use-push-notifications-with-prtg ) seja utilizado e assim o administrador, um usuário ou todo um grupo seja instantaneamente notificado.


figura 12 –tela do PRTG versão smartphone – avaliando um evento  (clique para ampliar)


Outras funcionalidades

Relatórios
: O sistema de alertas, alarmes, etc. é bastante importante para manter os administradores imediatamente a par dos acontecimentos que podem impactar os processos de negócio, interrupções, fragilidades, etc. Mas o PRTG também tem importantes ferramentas para análise da base histórica de dados. Trata-se de um módulo de relatórios que traz alguns modelos prontos bastante interessantes como:
  • Relação de todos os sensores utilizados
  • Dispositivos mais estáveis e os mais instáveis
  • Dispositivos com maio e menor tempo de resposta ao PING
  • Dispositivos com maior e menor uso de banda de rede
  • Outros tipos de relatórios

Além destes modelos, que podem ser emitidos com algumas condições de filtro, período de análise, etc. existe uma ferramenta geradora de relatórios para que o administrador possa ele mesmo criar o relatório com as informações importantes para ele. Os relatórios prontos ou os criados pelos usuários podem conter dados numéricos ou gráficos.
   


figura 13 –exemplo de relatório analítico do PRTG (clique para ampliar)
 
   


figura 14 –exemplo de relatório gráfico do PRTG (clique para ampliar)

Mapas: De forma ainda mais visual esta versão do PRTG traz uma ferramenta para criação de “Mapas Visuais” da infraestrutura, sob o ponto de vista das ocorrências, alertas e alarmes. Trata-se de um editor gráfico para criação de Dashboards. Existem dois modelos prontos que servem de exemplo, mas as possibilidades são imensas!!


figura 15 –exemplo de mapa da infraestrutura (clique para ampliar)

Alertas preditivos: embora não seja recurso novo, já existia na versão que testei em 2014, dessa vez me deparei com alertas bem diferentes, surpreendentes eu diria. Trata-se dos alertas de comportamentos não usuais! Ontem mesmo obtive o alerta mostrado abaixo. A rede estava funcionando perfeitamente, nenhum sensor com indicação de erro. Mas fui avisado, um dos servidores apresentou a mensagem “o tráfego de dados neste dispositivo está anormalmente baixo comparado com a média histórica”. Sabem o que isso significava? O sistema de entrada na empresa por meio de biometria apresentou problema e por isso ninguém havia entrado na empresa, não estavam trabalhando e por isso o PRTG avisou sobre o baixo tráfego de dados naquele horário. Achei sensacional!
   


figura 16 –alerta para evento não usual (clique para ampliar)

Conclusão

O PRTG é uma ferramenta que está em constante evolução. Por ter testado em 2012, 2014 e agora em 2016 consigo perceber as diferenças. Seja um detalhe como a organização em grupos (rede, servidor, impressoras, etc.) dos sensores fruto de uma varredura da rede (Auto-Discovery) ou a existência de mini sondas proporcionadas por smartphones. O sistema de tickets foi ampliado, uso muito simples permitindo que tarefas específicas sejam atribuídas aos membros da equipe. O conjunto de sensores em cada versão foi ampliado, permitindo que mais e mais situações, cenários e ambientes sejam analisados, monitorados e administrados.

A forma de comercialização do PRTG é interessante e muito flexível. Sua primeira versão está habilitada para até 100 sensores e não tem custo. Também existe uma versão de demonstração, que é ilimitada por 30 dias (depois passa a ter o limite de 100 sensores). A Paessler é bastante transparente com sua política comercial, publicada no site, 500 sensores US$ 1600, 1000 sensores US$ 2850, 2500 sensores US$ 6150 e 5000 sensores US$ 10500. Há ainda versões corporativas ilimitadas inclusive no nível de abrangência mundial.
   


figura 17 –política de comercialização baseada em quantidade de sensores

Uma empresa pode começar com a versão gratuita de 100 sensores. Ao perceber o valor para a organização ativar a demonstração de 30 dias (sem limites) e após este prazo contratar o produto no volume de sensores que lhe for conveniente. E no futuro, se a necessidade crescer, a ferramenta pode, por exemplo, crescer de 500 para 1000 sensores (ou mais).

Porém, como citei no texto anterior “PRTG 2016 – manter seu negócio 100% operacional é absolutamente crítico”, o grande valor do PRTG transcende à motivação técnica. Poder atuar sobre um evento técnico logo que ele ocorra, ou mesmo fruto da análise proporcionada pelo produto, ser capaz de prever a ocorrência de um problema sério, que poderia interromper atividades críticas da empresa, é algo essencial para as empresas atualmente, tão dependentes de seus recursos de tecnologia.

O efeito prático do teste no ambiente desta empresa foi bem perceptível. O nível de problemas, indisponibilidade de recursos e tempo para reação a incidentes ficou sensivelmente menor.

Assim, vejo o PRTG em 2016 como um produto evoluído, maduro, robusto, cujo valor para as empresas é fundamental, afinal ter informação sobre seus processos de negócios, dependentes de tecnologia é importantíssimo. Simples de instalar e de manter, flexível, ampla gama de sensores, muita informação como alarmes, relatórios, gráficos, é no mínimo uma ferramenta que deve ser experimentada caso a empresa ainda não desfruta deste tipo de tecnologia ou se utiliza um produto complexo e complicado. Pode valer a pena a troca. O PRTG pode ser obtido no site da Paessler em sua versão totalmente gratuita (até 100 sensores) ou uma versão de avaliação, sem restrição de número de sensores operacional por 30 dias.



figura 18 – detalhes do console de monitoração (clique para ampliar)

Um comentário:

  1. Depois de avaliar o custo/benefício (que inclui mão de obra, curva de aprendizado, etc), em comparação com concorrentes, optei por utilizar PRTG.

    Foi um projeto de 6 meses de implementação.
    Hoje somos um case com 5 mil sensores, e expandindo para Unlimited logo logo.

    ResponderExcluir