ABOGACÍALEGALTECHMARKETING JURÍDICO

El IIC y Garrigues impulsan la inteligencia artificial para el uso de expedientes judiciales de gran volumen

By 22nd septiembre 2021 No Comments

Para aplicar los últimos avances al sector legal, surge la colaboración del Instituto de Ingeniería del Conocimiento (IIC) y Garrigues, que han puesto a prueba un nuevo sistema: Mapa del Expediente, orientado a la organización y el tratamiento de expedientes judiciales de gran volumen

Para ello, se aplica el primer modelo de lenguaje en español adaptado al dominio legal, también desarrollado desde el Instituto de Ingeniería del Conocimiento y que se ha entrenado con datos del despacho de abogados.

El Instituto de Ingeniería del Conocimiento (IIC) es un centro de I+D+i pionero en Inteligencia Artificial con más de 30 años de experiencia en análisis Big Data, Procesamiento del Lenguaje Natural y Machine Learning, entre otras técnicas.

 Su apuesta de valor es el desarrollo de algoritmos y soluciones a medida para cada negocio en cualquier sector, basadas en el conocimiento que dan los datos y la investigación aplicada, y bajo el amparo de sus actuales asociados: IBM España, Grupo Santander y la Universidad Autónoma de Madrid.

El equipo multidisciplinar del IIC está integrado por profesionales altamente cualificados: data scientists, arquitectos Big Data, psicólogos y psicómetras, lingüistas, matemáticos, físicos, informáticos e ingenieros especializados en tecnologías de análisis de datos.

 En ámbitos donde se maneja gran cantidad de información en texto, como el legal, las técnicas de inteligencia artificial, y especialmente de Procesamiento del Lenguaje Natural (PLN), han demostrado ser útiles y eficaces para organizarla y consultarla más rápidamente.

Este sistema de inteligencia artificial integra el primer modelo de lenguaje adaptado al dominio legal, también desarrollado desde el IIC sobre la base de una nueva metodología para reajustar modelos existentes y que funcionen mejor con dominios del lenguaje y terminologías específicos.

Desde Garrigues se nos indica que “colaborar con el IIC en un proyecto en el que se aplican técnicas de inteligencia artificial y de Procesamiento del Lenguaje Natural (PLN) ha sido una experiencia muy enriquecedora. Sobre todo, teniendo en cuenta que el resultado es el desarrollo de una herramienta de gran utilidad para la prestación de servicios. El papel de Garrigues en esta iniciativa ha sido colaborar en el entrenamiento y validación del modelo de lenguaje en su adaptación al contexto legal”.

“Para ello, ha sido clave poder trabajar con expedientes del propio despacho y de la mano de equipos multidisciplinares en los que se ha contado con lingüistas, para el modelo del lenguaje; ingenieros, para la implementación del Mapa del Expediente; y con abogados, que validaban todo el proceso. Entre los resultados experimentales, se ha podido comprobar que el modelo desarrollado por IIC y Garrigues ofrece grandes resultados”, aclaran desde este despacho de abogados.

Organización y análisis de expedientes judiciales

Mapa del Expediente es un sistema capaz de procesar todo tipo de documentación asociada a un expediente judicial, normalmente de gran volumen, para organizarla, catalogarla y analizarla de forma automática.

Una vez recibida la información en forma de ficheros PDF, mediante técnicas de OCR (Optical Character Recognition), se transcriben y digitalizan todas las páginas del expediente y se divide el volumen en partes o documentos individuales. Estos se catalogarán automáticamente dependiendo del escrito del que se trate: partes, actas de declaración, cédulas de citación, diligencias, providencias o autos, entre otros.

De esta forma, el sistema permite a los usuarios consultar rápidamente la información relevante, pero también identificar a personas o empresas que aparecen mencionadas en los diferentes documentos y establecer una red de relaciones entre estas entidades. Una información que puede además visualizarse en forma de grafo, conformando un auténtico mapa para navegar por el expediente.

Funcionamiento del sistema Mapa del Expediente

Primer modelo de lenguaje del español legal

Mapa del Expediente cuenta a su vez con el primer modelo de lenguaje en español adaptado al sector legal. Este ha sido creado por el IIC según una metodología propia que permite adaptar modelos ya existentes a diferentes dominios del lenguaje, como el que se habla y se escribe en el sector legal.

Un modelo de lenguaje es una red neuronal artificial capaz de analizar ingentes volúmenes de texto escrito para aprender la estructura de un determinado idioma. Son ya conocidos modelos generales como BERT o GPT-3, que sirven de base y se ajustan para resolver distintas tareas de PLN: clasificación de documentos, resumen o traducción automática, generación de textos, entre otras.

No obstante, estos modelos pueden no funcionar tan eficazmente cuando se encuentran con los términos y la jerga empleados en sectores especializados, como el médico, el financiero o el legal. De ahí el interés por crear un modelo de lenguaje específico para cada ámbito con la metodología mencionada.

En este caso, se ha partido de BETO, el modelo general del español desarrollado por la Universidad de Chile, que se ha reentrenado con un gran corpus legal-administrativo de más de 500 millones de palabras. Los textos han sido recopilados de fuentes abiertas y curados por el equipo de lingüistas computacionales del IIC, garantizando su calidad.

Tras esta adaptación, se obtiene el primer modelo del lenguaje del español legal: Legal-BETO. Adicionalmente, y en una segunda fase de adaptación en colaboración con Garrigues, se utilizaron datos de expedientes recopilados por este despacho de abogados para generar una versión todavía más específica del modelo de lenguaje, bautizada como Garrigues-BETO y que se incorpora al sistema Mapa del Expediente.

Resultados de Mapa del Expediente

Ya puesto en práctica con Garrigues, Mapa del Expediente demuestra las ventajas de contar con un modelo de lenguaje adaptado al dominio legal. En concreto, se ha probado con dos problemas concretos del sector: la clasificación de documentos y la detección de entidades nombradas en el texto (personas, organizaciones y localizaciones). Entre los resultados experimentales, se ha podido comprobar que el modelo Garrigues-BETO ofrece mejores resultados que el estado del arte en modelos de lenguaje en español.

Por @LuisjaSanchez, Periodista Jurídico

    ¿Buscas un abogado especialista ?

    Te ayudamos a encontrar abogado de confianza en tu ciudad, gratis y sin compromiso. Contamos con una amplia red de abogados colaboradores por toda España y en cualquier materia.

    He leído y acepto las Condiciones de Uso y Privacidad, incluida la cesión de mis datos a los colaboradores del servicio

    Leave a Reply