
Un enfoque de Inteligencia Artificial innovador para la detección de publicidad online
El desafío perpetuo de la publicidad indeseada en el mundo digital
Equipos de investigadores en Suiza y Estados Unidos han desarrollado un enfoque revolucionario para la detección de publicidad online. Este método, basado en el aprendizaje
automático, se fundamenta en cómo los anuncios interactúan con el navegador, en lugar de simplemente analizar su contenido o comportamiento en la red, estrategias que han acabado resultando ineficaces ante técnicas de evasión como el encubrimiento CNAME.
El nuevo sistema, llamado WebGraph, emplea un enfoque gráfico de bloqueo de anuncios, centrado en detectar contenido promocional, tomando en cuenta las acciones básicas que los anuncios realizan en la red, como intentos de telemetría y almacenamiento en el navegador local.
Aunque sistemas anteriores han conseguido tasas de detección algo mayores que WebGraph, todos estos presentaban puntos débiles frente a tácticas evasivas. Por el contrario, WebGraph es capaz de mantener casi un 100% de integridad frente a respuestas adversas,
incluyendo intentos de evasión potencialmente sofisticados que podrían desarrollarse contra este novedoso método de bloqueo de publicidad.
AdGraph y su sucesor, WebGraph
Este enfoque surge como un avance de un proyecto de investigación de 2020, llamado AdGraph, realizado en colaboración con el navegador Brave. Aquel método se basaba principalmente en el análisis de las URLs de los anuncios. Sin embargo, esta estrategia presentaba una debilidad esencial: podía ser saboteada por adversarios que encontraban maneras de detectar y evadir los sistemas de detección de publicidad.
El problema del encubrimiento CNAME
Los anuncios que parecen provenir del mismo dominio de un sitio web se categorizan como «confiables». Esto representa una ventaja para los anunciantes, ya que dichos anuncios escapan a los bloqueadores basados en listas de filtros, e incluso al enfoque AdGraph. Sin embargo, los métodos de encubrimiento CNAME se presentan como una técnica de evasión efectiva. Con ella, los anunciantes engañan a los rastreadores al hacerles creer que un componente del sitio anfitrión (por ejemplo, info.ejemplo.com en lugar de ejemplo.com) es un auténtico complemento del sitio, cuando en realidad es un proxy de publicación de anuncios en connivencia
con proveedores de publicidad de terceros.
Desestimando la confianza en las URL
Cualquier sistema de bloqueo de anuncios que basa su funcionamiento en la cadena de URL, estará sujeto a manipulación y evasión. Por esta razón, WebGraph desestima esta técnica y en su lugar, busca identificar patrones de comportamiento en lugar de URLs específicas prohibidas o aceptadas.
Resultados demostrativos
El equipo de investigación utilizó una versión avanzada de OpenWPM para rastrear 10.000 sitios web de los 100.000 sitios principales de Alexa. Los resultados pasaron a un clasificador de árbol de decisión modelado en el diseño original de AdGraph y se utilizó para construir un conjunto de datos para entrenar el modelo. WebGraph logró una precisión del 92,33%, similar a los resultados de AdGraph, pero superó a este en términos de resistencia a la resistencia adversaria.
Perspectivas futuras
Los investigadores sugieren que las redes publicitarias necesitarían rediseñar significativamente sus sistemas para evitar la detección por parte de WebGraph. Además, plantean que WebGraph podría evolucionar para tener en cuenta técnicas de seguimiento sin estado, como el fingerprinting del navegador, que utilizan API que actualmente no se monitorean en el sistema.
LEE MÁS ARTÍCULOS SOBRE: Ciencia de Datos con IA.
LEE LA ENTRADA ANTERIOR: IIT Bhubaneswar lanza centro de investigación de IA y HPC para soluciones de vanguardia.