DarkBERT, la inteligencia artificial entrenada para combatir el crimen cibernético
La Internet oscura o Dark web ha sido el campo de pruebas para entrenar esta nueva herramienta de IA.

La Dark web es una zona no indexable por buscadores convencionales, así que a diferencia de la "Surface web" (web superficial), que es la parte de Internet que todos conocemos y utilizamos diariamente, la Dark web es un espacio oculto que requiere de software específico y configuraciones especiales para acceder a él. En esta Internet oscura se suelen llevar a cabo actividades ilegales y cuestionables, como la venta de drogas, armas, datos robados, tarjetas de crédito, malware, servicios de hacking, pornografía infantil y otros contenidos ilícitos ya que permite el anonimato a sus usuarios.

DarkBERT, la inteligencia artificial entrenada para combatir el crimen cibernético
El lado oscuro de la web
Ya hemos tenido conocimiento que los modelos de lenguaje grande (LLM) de OpenAI se entrenan en una amplia gama de conjuntos de datos, extrayendo información de los rincones más enredados de Internet.
Precisamente por esta característica y para entrenar mejor sus capacidades de ciberseguridad, un equipo de investigadores de Corea del Sur ha creado un modelo de IA denominado DarkBERT para indexar algunos de los dominios más incompletos de Internet. Esta potente herramienta tiene como objetivo explorar y comprender el contenido de ese lado oscuro de la web, entrenándose a fondo en la peor parte de Internet en aras de la ciberseguridad.
Y es que, a medida que pase el tiempo, este efecto bola de nieve que ha desatado el lanzamiento de este tipo de herramientas como ChatGPT, no para de 'dar a luz' nuevas aplicaciones que emplean inteligencia artificial y, con ello, herramientas de malware avanzado, ya que es inherente a la creación de algo nuevo, que tenga su parte positiva y negativa.

Hacker en la dark web
¿Cómo controlar la vertiente más nefasta?
DarkBERT, tal y como explican sus creadores en un documento disponible en el servidor de preimpresión arXiv, se basa en la arquitectura RoBERTa (de ahí su nombre), un enfoque de IA desarrollado en 2019. Los investigadores descubrieron que el modelo estaba muy poco entrenado y que necesitaba capacitación extra. Para ello, rastrearon la Dark Web a través del cortafuegos anónimo de la red Tor y luego filtraron los datos sin procesar (aplicando técnicas como deduplicación, equilibrio de categorías y preprocesamiento de datos) para generar una base de datos de la Dark Web. Con ello, DarkBERT es capaz de analizar contenidos fuertemente codificados, y extraer información útil de ellos.
Los datos incluían una gran cantidad de sitios sospechosos de varias categorías, incluidas criptomonedas, pornografía, piratería, armamento y otros. Para evitar preocupaciones éticas, el equipo pulió todo el corpus web oscuro, filtrándolo, antes de enviarlo a DarkBERT.
La finalidad es que Dark Web sirva como herramienta para la investigación y para la aplicación de la ley que lucha contra el delito cibernético. Debido a que la Dark web se suele utilizar para hablar de forma anónima, la convierte en un objetivo extremadamente importante para las fuerzas del orden.
¿El resultado?
Los hallazgos presentados mostraron que DarkBERT superó a los demás en todos los conjuntos de datos, pero se destacó específicamente en Dark Web. "Los resultados de nuestra evaluación muestran que el modelo de clasificación basado en DarkBERT supera al de los modelos de lenguaje previamente entrenados conocidos", escribieron los investigadores en su artículo.
De ahí que pueda convertirse en una poderosa herramienta para escanear la Dark Web en busca de amenazas de seguridad cibernética, así como para controlar los foros para identificar actividades ilícitas. Los expertos sugieren que podría usarse para tareas como detectar webs que vendan ransomware o filtran datos confidenciales o incluso rastrear hilos en busca de cualquier intercambio de información ilícita. Aún queda por ver cómo se usará oficialmente y qué conocimiento se puede obtener de ella.
Una IA vigilando Internet. ¿Asusta? ¿Tranquiliza?
Referencia:
DarkBERT: A Language Model for the Dark Side of the Internet Youngjin Jin1 Eugene Jang2 Jian Cui2 Jin-Woo Chung2 Yongjae Lee2 Seungwon Shin1 1KAIST, Daejeon, South Korea 2S2W Inc., Seongnam, South Korea 1{ijinjin,claude}@kaist.ac.kr 2{genesith,geeoon19,jwchung,lee}@s2w.inc rXiv:2305.08596v2 [cs.CL] 18 May 2023 https://arxiv.org/pdf/2305.08596.pdf