Privacidad e IA generativa: por qué tus chats no son tan privados

Un estudio de IMDEA Networks publicado el 4 de mayo demuestra que las principales plataformas de IA generativa filtran sistemáticamente datos de las conversaciones a redes de tracking comercial. Repasamos qué se ha demostrado, qué implica para uso profesional y por qué nosotros usamos modelos self-hosted.

Resumen: el centro de investigación IMDEA Networks publicó el 4 de mayo un estudio que documenta cómo las principales plataformas de IA generativa (ChatGPT, Claude, Grok y Perplexity) filtran sistemáticamente información de las conversaciones de sus usuarios a redes de tracking comercial — Meta, Google, TikTok y otras. La conclusión obliga a replantearse qué le contamos a estas herramientas, sobre todo en uso profesional.

El viejo modelo, aplicado a un material nuevo

La frase "si es gratis, el producto eres tú" lleva años explicando cómo funciona buena parte del internet de consumo. Lo nuevo de este estudio es comprobar que ese modelo —datos del usuario alimentando publicidad y perfilado— se ha replicado dentro de las interfaces de IA generativa.

Y la diferencia con la web tradicional no es menor. A un buscador le hacemos consultas. A un chatbot, en cambio, le contamos cosas: síntomas médicos, conflictos personales, dudas legales, estrategia de empresa, código propietario, datos de clientes. Lo tratamos como un cuaderno privado. La infraestructura que lo soporta, sin embargo, se parece más al ecosistema de banners y trackers que a un cuaderno cerrado con candado.

Tres hallazgos que conviene leer despacio

1. Las URLs de los chats se filtran a redes publicitarias

Grok y Perplexity (antes de abril de 2026) enviaban por defecto las URLs de las conversaciones a trackers como Meta Pixel. Muchas de esas URLs son enlaces permanentes consultables por cualquiera que las conozca, sin necesidad de iniciar sesión — filtrar la URL puede equivaler a filtrar la conversación entera.

En el caso particular de Grok, además, se generan capturas públicas del contenido del chat que llegan a TikTok con el texto literal de los mensajes incrustado en los metadatos. No es texto cifrado ni resumido: es texto plano, indexable.

2. Los datos van acompañados de identificadores que apuntan a una persona

Las URLs no viajan solas. Las acompañan cookies de seguimiento, hashes de email y otros identificadores que permiten al tracker cruzar la información con perfiles ya existentes. En la práctica significa que la conversación que mantuviste con la IA queda vinculada al perfil que esa misma red publicitaria ya tiene de ti por tu navegación previa, tu cuenta de correo o tu actividad en aplicaciones.

3. Los controles de privacidad pueden inducir a error

Tres ejemplos directos del estudio:

Google Analytics en Grok se dispara siempre, marques lo que marques en el banner de cookies.
Claude con Intercom envía URLs de conversación de forma incondicional, al margen de las preferencias del usuario.
Las políticas de privacidad mencionan "socios comerciales" y "cookies de terceros" en términos genéricos, pero no advierten claramente de que las conversaciones se comparten con redes publicitarias.

Los formularios de consentimiento de cookies tienen además carencias formales: el usuario cree estar protegido cuando no lo está. Los autores publicaron sus conclusiones tras un proceso de responsible disclosure a las plataformas afectadas y a las autoridades competentes — el timeline completo está en la web del proyecto.

Capacidad técnica vs. uso real

Conviene matizar lo que el estudio documenta y lo que no. Demuestra capacidad técnica y riesgo estructural — los datos están saliendo. No demuestra que los trackers hayan leído efectivamente conversaciones concretas. Los autores son explícitos en este punto.

Pero el riesgo estructural ya basta. Una vez los datos llegan al tracker, lo que ese actor haga con ellos depende de su propia ética y de la del cliente que se los compre. Para la mayoría de usos profesionales, asumir que existe la capacidad equivale a asumir que ha sucedido.

Qué implica esto para uso profesional

Samsung lo aprendió por las malas en 2023, cuando varios empleados filtraron código propietario al usar ChatGPT como ayudante. La empresa prohibió internamente el uso del producto. En su momento parecía una reacción exagerada; con la información que tenemos hoy, parece sensatez aplicada.

La pregunta que sigue es práctica: si tu trabajo implica datos de clientes, información financiera, código propietario o estrategia de empresa, ¿cuál es el coste de que esa información acabe en una red publicitaria o en el dataset de entrenamiento de un tercero? Para uso casual —pedir una receta, redactar un email genérico— el riesgo es bajo. Para uso profesional con información sensible, el riesgo es estructural y conviene asumir que existe.

Por qué BLWE no usa estas plataformas para tus datos

En BLWE procesamos datos confidenciales —facturación, fiscalidad, clientes, proveedores— y por eso los modelos de IA que ejecutamos en el producto son self-hosted sobre infraestructura propia. La información que llega a nuestros agentes no se envía a OpenAI, Anthropic, Google ni a ninguno de sus respectivos ecosistemas de tracking.

Esto tiene un coste técnico —mantener los modelos al día, dimensionar GPU, optimizar rendimiento— pero es la única manera coherente de ofrecer automatización con IA a empresas que manejan información sensible. La alternativa, integrar la API de un proveedor externo y pasarle el dato, sería más rápida de implementar pero entraría en el mismo problema que el estudio documenta a otra escala: tu información sale de tu control en el momento en que cruza esa frontera.

Si te interesa cómo está montada esta arquitectura —qué modelos usamos, cómo se aíslan los datos por cliente, qué se entrena y qué no— escríbenos. Es uno de los puntos del producto del que más nos gusta hablar.

Privacidad e IA generativa: por qué tus chats con ChatGPT, Claude o Grok no son tan privados como parecen