IA Generativa y la Privacidad de la Información

Autor:

Miquel Lara y Juan Ramón González
Fecha:

12 abril, 2024
Categoría
- IA Generativa

La Privacidad de la Información

Todos los avances actuales en el campo de las IAs Generativas comparten un mismo reto que, a menudo, dificulta su uso: la privacidad de la información que se proporciona a estos sistemas. Ha habido casos donde se han filtrado datos por el uso de estas tecnologías, como la filtración de código sensible de importantes empresas después que varios empleados lo usaran en ChatGPT, y otras ocasiones, donde se ha podido extraer información privada de otros usuarios.

Una de las preocupaciones principales, cuando analizamos con nuestros clientes la estrategia para desplegar soluciones con IA Generativa, es el control de sus datos. Nos enfocamos siempre en evitar que pueda haber filtraciones o que sus datos tengan que enviarse a servicios externos.

A día de hoy, todos los proveedores Cloud como AWS, Azure y GCP tienen sus propios servicios de LLM. Por ello, una de las funcionalidades core que se han implementado dentro de nuestro framework es la capacidad de desplegar los sistemas de IA Generativa en cualquier proveedor cloud, así como en entornos on-premise sin tener que modificar nuestro código. De esta forma, podemos centrarnos en el trabajo de creación de la aplicación, con la tranquilidad de saber que los datos están seguros en el entorno corporativo de trabajo.

En nuestro Gen AI Framework hemos integrado dos elementos core:

Almacenamiento de datos: desde VectorStore OpenSource como FAISS, a bases de datos as a service de los diferentes proveedores cloud como Azure Search u OpenSearch, para disponer del entorno de almacenamiento nativo cloud.

LLM: integración con los modelos disponibles en cada proveedor cloud y con despliegues on-premise de forma que tenemos la creación de embeddings, como las llamadas a las LLMs, en el entorno seguro del cliente.

Almacenamiento de datos

Una de las principales técnicas que utiliza el Gen AI Framework es el Retrieval Augmented Generation. En esta técnica se emplean fuentes adicionales de datos que pueden utilizarse para aumentar los conocimientos de la IA, sin tener que adaptar ni entrenar el modelo previamente. Para esto, se utilizan bases de datos especializadas. Las llamadas bases de datos vectoriales, que permiten que los modelos generativos busquen textos relevantes y los empleen para responder a las consultas. Dado que estas bases de datos pueden contener datos sensibles, hemos optado por poder usar tanto tecnologías open source, como tecnologías nativas en cloud disponibles en todos los proveedores de cloud.

Open Source

Por el lado open source, hay integración nativa con FAISS (Facebook AI Similarity Search), una biblioteca desarrollada por Meta, que permite la búsqueda por similitud semántica de los contenidos introducidos. Esta se puede desplegar de forma privada en infraestructura propia , y, debido a su fácil acceso, es muy útil para un prototipado rápido sin tener que levantar servicios cloud adicionales. El framework puede desplegar la base de datos y gestionar sus contenidos de forma eficiente.

Cloud

En el caso de tecnologías cloud, por ahora Gen AI Framework cuenta con Azure Cognitive Search, y Amazon OpenSearch. Estos son servicios cloud que funcionan como cualquier otra base de datos en cloud, y que tienen las mismas garantías de seguridad, control de acceso y privacidad que los otros servicios disponibles sobre AWS y Azure. Aquí se puede conectar a los servicios una vez configurados, gestionar los contenidos y usarlos en las consultas de los usuarios.

Large Lenguage Models (LLM)

Los modelos que se utilizan para generar las respuestas también deben tenerse en cuenta cuando se quiere mantener la privacidad de los datos. Aquí se puede desplegar tanto infraestructura propia como en cloud, pero en el Grupo Mática nos hemos centrado en el despliegue en cloud.

El despliegue de modelos requiere hardware potente, con requisitos de memoria, CPU e incluso GPU elevados, que es más complicado de gestionar, especialmente en entornos multiusuario. Por suerte, los proveedores cloud nos ofrecen una gran cantidad de modelos, tanto propietarios como de código abierto, que se pueden desplegar de forma privada, y que podemos utilizar en el framework como agentes.

Si nos centramos en los distintos proveedores cloud, cada uno ofrece lo siguiente:

Azure

Cuenta con los modelos propietarios de OpenAI, empaquetados en el servicio de Azure OpenAI. Estos modelos un alto rendimiento, ya que son los mismos que emplea ChatGPT, pero cuentan con la garantía de que los datos introducidos no se usarán en ningún momento para entrenar los modelos.

Tienen un modelo de pago por tokens, similar al de ChatGPT, y al estar basados en el cloud de Azure, se puede limitar el acceso a los modelos mediante el uso de endpoints privados y redes virtuales.

Amazon Web Services

Amazon tiene como plataforma para IA Generativa Amazon Bedrock, que es un servicio gestionado de IAs Generativas. Al contrario que Azure, que utiliza los modelos GPT de OpenAI, Amazon cuenta tanto con modelos propios (Amazon Titan), como con una familia de modelos de código abierto, como pueden ser Llama 2, Claude y Mistral. Estos modelos se despliegan de forma privada, y cuentan con un API de pago por uso.

Uso dentro del Framework

Todos estos tipos de modelos y bases de datos son usables dentro del framework de forma intercambiable, según las necesidades del proyecto. Esto brinda una máxima flexibilidad, al no estar limitado a usar únicamente las soluciones de uno u otro proveedor, y permite hacer pruebas rápidas para cada caso de uso, pudiendo probar las mismas consultas, pero sobre entornos distintos.

Gracias a los despliegues en entornos privados, en el Grupo Mática garantizamos la seguridad de los datos de los usuarios, y hacemos posible que nuevos clientes se beneficien del gran potencial de las IAs Generativas.

IA Generativa y la Privacidad de la Información

Autor:

Fecha:

Categoría

¿NECESITAS AYUDA?