Cuando el 90% de tu tráfico no es "real"

👻 La Newsletter de @weareDMNTRs 👻

Esta semana me tocó dar una charla en el esNOG, el subject de este e-mail es el título de la misma. Si queréis verla entera, la tenéis por YouTube, pero el resumen lo puedo hacer yo ahora en dos líneas.

Nos conectamos a un panel de gestión, miramos el tráfico de un cliente cualquiera, cruzamos datos, y nos sale que el 95% de las visitas que cree tener no son personas. Son bots, crawlers, scrapers, IAs con prisa, agentes haciendo la compra por otros. Lo que quieras llamarle. El 5% restante somos nosotros, los "humanos". Con comillas muy grandes, porque a estas alturas yo ya no tengo tan claro si soy humano o si soy un endpoint que contesta emails entre café y café.

Pero la charla no iba de eso exactamente. La charla iba del paradigma. Y es de lo que quiero hablar aquí.

Durante veinte años internet funcionó con un pacto tácito entre webs y bots. El pacto era más o menos así: "tú, bot, vienes a mi casa, te identificas en el User-Agent, respetas mi robots.txt, no me saturas el servidor, y a cambio yo te dejo pasar. ¿Por qué te dejo pasar? Porque si eres Googlebot, me traes visitas. Si eres Bingbot, me traes menos visitas pero también. Si eres un bot de precios, bueno, lo tolero. Y si eres un bot malo, pues ahí estaba el WAF para molerte a palos". Era un equilibrio raro, pero funcionaba. Los bots venían, pagaban el peaje del SEO, y nosotros les dejábamos el paso abierto.

Hace seis meses o un año, la conversación con cualquier cliente era esta: "oye, que tengo la tienda petada, mírame si hay algún bot raro". Y mirabas los logs, y efectivamente, ahí estaba ClaudeBot chupando 34 gigas en 24 horas, o GPTBot multiplicando por tres el tráfico de marzo, o PerplexityBot disfrazado de Chrome para esquivar tu robots.txt. Y el cliente te decía "córtalos, bloquéalos, no quiero que me tiren el servidor". Y tú los cortabas. Y todo el mundo feliz.

Hoy la conversación ha cambiado. Hoy el mismo cliente te llama y te dice "oye, que no aparezco en ChatGPT, mi competencia sí, ¿tú crees que será porque les bloqueamos los crawlers?". Sí, será por eso.

Y esto es lo que quiero que os quede grabado: en menos de un año hemos pasado de "la IA es una plaga que hay que exterminar" a "la IA es el nuevo Google y como no te indexe, no existes". El problema no es que hayamos cambiado de opinión. El problema es que la IA también ha cambiado. Ya no es un crawler educado que pasa cada tres semanas a refrescar el índice. Ahora son agentes autónomos que consultan tu web en tiempo real, cada vez que un usuario pregunta algo. Una persona comprando una cámara visita cinco webs, un agente de IA haciendo lo mismo visita cinco mil. En diez segundos.

El tráfico de IA agéntica creció un 7.851% en 2025. Puede parecer una salvajada, pero obviamente antes no existía ese tipo de tráfico, así que es un número más grande de lo que es en realidad. Aun así, sigue siendo una bomba. Y los que estamos al otro lado del cable, los ISPs, los que pintamos las gráficas bonitas de uso de ancho de banda, lo estamos viendo en directo. El mismo cliente, con los mismos empleados, el mismo volumen de negocio, ahora empieza a necesitar diez veces más bandwidth. No porque haya crecido, sino porque sus empleados han descubierto los agentes.

A la vez, como ISP, como proveedor de servicio, nos encontramos en una posición rara. Antes recomendábamos bloquear, ahora recomendamos dejar pasar. Pero dejar pasar "solo a los buenos".

🤔 - "¿Y cuáles son los buenos?"

👻 - "Pues depende del día."

🤔 - "¿?"

A ver, efectivamente, depende de muchas cosas. Por ejemplo, depende de quién firme acuerdos con quién. Depende de si OpenAI decide que ChatGPT va a recomendar productos y tú eres una tienda online, porque entonces de repente te interesa muchísimo que GPTBot entre hasta la cocina. El "bot = malo, humano = bueno" se ha acabado. Ahora es "bot legítimo con intención comercial alineada con mis intereses = bueno, todo lo demás = depende".

Y tú, administrador de red, descifra eso con iptables y cloudflare...

Aquí va lo incómodo de todo esto y algo que, en el ESNOG, Tomas Ledo, de Tecnocrática, supo poner sobre la mesa en el turno de preguntas: Nosotros, como ISP, tenemos algo que OpenAI no tiene, que Anthropic no tiene o que Google ya no tiene del todo.

Tenemos los datos.

Sabemos quién entra, cuándo entra, qué pide, cuánto pide, desde dónde pide. Tenemos la foto entera del tráfico de nuestros clientes. Sabemos qué ASNs son proxies residenciales chinos maquillados de ISP británico. Sabemos qué rangos de IP son granjas de scraping vendidas por horas. Sabemos qué bots mienten en el User-Agent.

Albergamos además el contenido a servir. Sí. Lo que alimenta los datasets de la IA. Eso reside en nuestros dominios.

Somos el oráculo de esta jungla llamada Internet sobre la que hemos construido el mundo actual.

Pero, ¿qué hacemos con ese conocimiento? Pues básicamente, lo regalamos.

Se lo regalamos a las IAs que se lo llevan crudo. Se lo regalamos a Cloudflare, que se pone en medio y factura la protección. Se lo regalamos a los WAFs comerciales que luego nos venden como servicio lo que nosotros mismos veíamos antes.

Y encima sonreímos, porque oye, tú no te has peleado con un ModSecurity un sábado a las tres de la mañana, tú no sabes lo que es vivir. El dato del tráfico, que es oro puro en una era donde saber distinguir un humano de un agente vale millones, lo tenemos nosotros. Y estamos dejando que se vaya por el desagüe porque nadie en el sector ha sabido montar todavía un producto decente con eso.

Y aquí, justo aquí, hay un detalle que no me quito de la cabeza desde hace bastantes meses: En 2011 un chaval de 24 años llamado Aaron Swartz se conectó a la red del MIT y empezó a descargar artículos académicos de JSTOR. En total se bajó unos 4,8 millones de documentos. Su idea era liberarlos, ponerlos accesibles al mundo, porque consideraba que el conocimiento científico no debería estar detrás de un paywall...

Lo pillaron y le cayeron cargos de fraude electrónico, fraude informático, obtención ilegal de información de un ordenador protegido. Le pidieron hasta 35 años de cárcel y un millón de dólares de multa. En enero de 2013, con 26 años, Aaron se suicidó en su apartamento de Brooklyn.

Ocho años después, empresas valoradas en cientos de miles de millones de dólares descargan eso mismo y mil veces más cada día, sin pedirle permiso a nadie, ignorando robots.txt, rotando proxies residenciales comprados a redes de dispositivos Android comprometidos, y el CEO sale en la CNBC a explicar que es por el bien de la humanidad, que están comprometidos por la vida y que, de la inyección continúa de capital de una empresa como Palantir, que se dedica a lo que se dedica, él no sabe nada.

A Aaron le pidieron 35 años por hacer algo peor visto, pero con mejores intenciones que lo que hacen hoy ClaudeBot, GPTBot y Bytespider todos juntos a las once de la mañana de un martes cualquiera.

No estoy diciendo que Aaron tuviera razón ni que no la tuviera. Bueno, a ver, sí que estoy diciendo que la tenía. ¡Por supuesto que la tenía!

Pero también estoy diciendo que el baremo con el que medimos qué es scraping legítimo y qué es scraping criminal ha cambiado sin que nadie haya firmado un papel. Y que ese cambio lo han decidido los mismos que tienen la pasta para pagarse los abogados que justifican su scraping, mientras que cualquiera que hoy intentara hacer lo que hizo Aaron desde un ordenador cualquiera, se comería los mismos 35 años.

El problema no es que la IA se esté comiendo Internet, el problema es que ahora sabemos que internet sí se podía masticar, siempre se pudo. Solo había que tener el tamaño adecuado para que no le sentara mal al juez.

Así que qué, nada, llevo ya demasiados años en esto como para ponerme moralista, pero que mientras llega la ola, lo que sí podemos hacer es mirar lo que tenemos entre las manos: El dato, la visibilidad, la capacidad de decir "este tráfico es basura", "este otro merece la pena", "este de aquí es un agente que viene a comprar", "este otro es un bot que viene a hacerte la competencia gratis". Eso vale dinero. Oro. Y si no lo monetizamos nosotros, ya veréis cómo lo monetiza otro.

Spoiler: ya lo está monetizando otro.

Y probablemente acabemos pagándoselo nosotros. Porque eso es lo bonito de haber dejado pasar el tren: que luego, cuando quieres ir al mismo sitio, toca comprar el billete.

¡Feliz Domingo!

🔗 Newsletter patrocinada por: 🔗

Protecting what matters most

🔊 Llámalo podcast... 🔊

Todos los episodios aquí: https://go.ivoox.com/sq/2343562

T4 - Episodio 23: Pre-ESNOG -> https://www.ivoox.com/t4-episodio-23-pre-esnog-audios-mp3_rf_171830104_1.html

Y fin...

Hasta aquí la newsletter de esta semana.

Si habéis llegado al final, sabed que os debo una: probablemente esto ha salido un poco más largo y un poco más filosófico de lo habitual, pero es que el tema me tiene la cabeza bastante revuelta últimamente. Como siempre, a esta newsletter no hemos venido a hacer amigos, y si he molestado a algún CTO de alguna empresa de scraping de las buenas, pues mire, tómeselo como una oportunidad de crecimiento personal.

¿Y tú qué opinas? Nos vemos en los canales habituales: X y Telegram.

Por cierto, si quieres, puedes invitarme a un cafelito. ☕☕☕

Lo mismo deberíamos empezar a hacer algo...