Google lanzó una versión de código abierto de SynthID, su herramienta para aplicar marcas de agua en contenidos generados por IA

El sistema fue habilitado para que desarrolladores y empresas puedan identificar de manera gratuita textos generados por modelos de lenguaje. Cómo funciona

1 de 1 |

Google lanzó una versión de código abierto de SynthID.

Google lanzó una versión gratuita y de código abierto de SynthID, su herramienta que permite insertar marcas de agua en contenidos generados por inteligencia artificial (IA), que ahora podrá ser utilizada por desarrolladores y empresas para identificar textos generados por modelos de lenguaje.

El anuncio lo hicieron a través de un posteo en la red social X desde DeepMind, el departamento de Google dedicado a investigación y desarrollo de IA. Se trata de una novedad sobre una serie de herramientas de marca de agua para textos, música, imágenes y videos generados con esta tecnología.

*SynthID aplica una marca de agua sobre tokens basándose en la probabilidad de que sean generados por IA.*

"Estamos publicando el código abierto de nuestra herramienta de marca de agua de texto SynthID a través de un kit de herramientas de IA generativa responsable actualizado", escribieron desde la compañía. Los que buscan es que diferentes desarrolladores puedan probar este recurso para mejorarlo y trabajar en sus limitaciones.

Y agregaron: "Al hacer público el código fuente, más personas podrán usar la herramienta para marcar y determinar si los resultados de texto provienen de sus propios LLM, lo que facilitará la creación de IA de manera responsable".

Cómo funcionan las marcas de agua para IA

Según explican los desarrolladores de DeepMind, las marcas de agua que se agregan a los textos generados con inteligencia artificial no son visibles, sino que deben detectarse mediante un software de identificación.

Las pruebas realizadas con SynthID mostraron buenos resultados en textos generados por el modelo Gemini de Google, siendo mejores para aquellos de mayor extensión.

Para acoplar las marcas de agua, el sistema añade un puntaje de probabilidad para cada uno de los tokens del texto durante el proceso de generación.

Los tokens son los bloques de construcción que utilizan los modelos de lenguaje para procesar la información generar sus resultados. Estos pueden ser letras, fragmentos de palabras o palabras completas, o también frases.

Here’s how SynthID watermarks AI-generated content across modalities. ↓ pic.twitter.com/CVxgP3bnt2
— Google DeepMind (@GoogleDeepMind) October 23, 2024

"El patrón final de puntuaciones para las elecciones de palabras del modelo, combinado con las puntuaciones de probabilidad ajustadas, es considerado la marca de agua", describen los investigadores de DeepMind.

Además, indican que "este patrón de puntuaciones se compara con el patrón esperado de puntuaciones para texto con y sin marca de agua, lo que ayuda a SynthID a detectar si una herramienta de inteligencia artificial generó el texto o si podría provenir de otras fuentes".

La herramienta de identificación se puso a prueba con un análisis de 20 millones de respuestas de chatbots, y se comprobó que ofrece un alto nivel de precisión de detección con un impacto mínimo en la latencia, por lo que no ralentiza el funcionamiento de la aplicación de IA.

"Las evaluaciones de múltiples LLM muestran empíricamente que SynthID-Text proporciona una detectabilidad mejorada en comparación con los métodos comparables, y los puntos de referencia estándar y las calificaciones humanas en paralelo no indican ningún cambio en las capacidades de LLM", concluyeron los ingenieros de DeepMind.