5 erros mais comuns sobre machine learning

10/03/2017 09:30

Usadas por varejistas para recomendar produtos, provedores de e-mail para filtrar spam e redes sociais para reconhecimento facial e análise de sentimentos, as técnicas de machine learning nunca foram tão acessíveis e utilizadas como hoje. Segundo a Easy Solutions, empresa especializada no combate a fraudes em todos os dispositivos e canais, essas técnicas ajudam a superar desafios que a capacidade de análise humana e os sistemas estáticos não conseguem vencer, mas machine learning não é uma solução mágica.

“Toda essa propaganda tem gerado grandes expectativas sobre a performance dessas ferramentas, geralmente seguidas de enormes decepções entre os consumidores que se sentem enganados”, aponta o gerente de pesquisas na Easy Solutions, Javier Vargas. “Isso ocorre porque existem muitos mal-entendidos com relação ao uso de machine learning como instrumento de segurança cibernética”.

Para evitar problemas, a Easy Solutions listou os cinco equívocos mais comuns que devem ser esclarecidos antes da adoção de machine learning.

– Machine learning não é capaz de criar conhecimento, apenas de extrair conhecimento: ferramentas de machine learning somente podem alcançar seu verdadeiro potencial – e superar as abordagens tradicionais – se forem alimentadas com um volume suficiente de dados de qualidade.  É crucial desenvolver dados de maneira consciente na organização como um todo e nas áreas especificamente envolvidas na detecção e mitigação de incidentes.

– Trata-se de uma tecnologia adicional: enquanto os marqueteiros acreditam que machine learning supera a performance de todos os sistemas existentes, é importante ter cautela para gerar expectativas realistas. As técnicas de machine learning devem ser incorporadas a uma estratégia de proteção robusta e multicamada.  Elas têm maiores chances de detectar os ataques que conseguem driblar defesas preventivas estáticas, sendo também um bom complemento para empresas com sistemas estáticos que foram finamente ajustados ao longo de anos de expertise;

– Análises de desempenho produzidas por cientistas de dados

tendem a ser complexas, e é importante entendê-las: termos como taxa de falso-positivos, taxa de verdadeiro-positivos, precisão e F-Score são muito importantes no ajuste do modelo às necessidades específicas da instituição. Duas das principais fontes de decepção no uso de machine learning são, justamente, as taxas de falso-positivos e de alertas. É frustrante implementar um algoritmo cujas referências indicam um excelente desempenho e descobrir que ele está exaurindo a capacidade operacional.

– Bons modelos de machine learning são avaliados pelo seu desempenho: isso significa que a performance é avaliada executando o algoritmo várias vezes com um conjunto de big data que seja uma boa representação do problema real.  As organizações devem ser coerentes com as suas necessidades operacionais.  Deve-se fazer o mapeamento considerando as proporções da operação, ou seja, se o algoritmo for alimentado com 1 milhão de eventos por dia, cerca de 20.000 dos alertas diários podem ser falso-positivos.

– Os resultados de machine learning nem sempre são fáceis de explicar: o setor de segurança cibernética está acostumado com regras, listas negras, fingerprints e indicadores de comprometimento. Explicar porque um determinado alerta foi ativado é simples e natural.  Modelos de machine learning identificam padrões em grandes conjuntos de dados, extrapolam respostas e fazem previsões com base em composições não triviais.  Tudo isso torna muito difícil entender seu funcionamento interno. Muitos esforços foram investidos para descobrir maneiras de explicar os resultados dos modelos de machine learning, mas esses sistemas avançados somente oferecem estimativas em termos de explicações interpretáveis, que não podem ser seguidas ao pé da letra.

“Machine learning pode melhorar ao longo do tempo se as organizações permitirem que essas ferramentas evoluam utilizando dados atualizados”, aponta Vargas.  “A configuração operacional deve sempre acompanhar os sucessos e as falhas nas previsões do modelo para que ele possa se adaptar e evoluir rapidamente”, conclui.

 

Fonte:ipnews