Google SLING: un analizador lexicográfico de lenguaje natural, de código abierto
Google Research ha liberado un proyecto de código abierto, llamado SLING, que será del interés a quien esté trabajando con el procesamiento de lenguaje natural, es decir, el lenguaje que hablamos los seres humanos.
El reconocimiento del lenguaje natural es un tópico importante, pues se puede obtener significado de las estructura y esto depende de poder hacer un análisis lexicográfico en el procesamiento tanto de texto como de la voz. Si el lector usa Siri, Cortana o Alexa, seguramente estará esperando que mejoren su tecnología del entendimiento de las órdenes que se dan habladas y quizás esta nueva biblioteca de funciones de Google pueda mejorar este aspecto del problema.
Google, como otras empresas, necesitan encontrar maneras de extraer los significados de los textos porque esto implica mejorar los resultados. Es razonable especular que Google está haciendo un esfuerzo importante en el área del entendimiento del lenguaje.
Los investigadores involucrados en este nuevo sistema, llamado SLING, indican que se trata de un proyecto aún experimental, de manera que aquel que quiera usarlo tendrá que poner un considerable esfuerzo para echarlo a andar como se debe. El enfoque es usar un marco de una gráfica semántica, un diagrama que finalmente sume el significado de las oraciones. Sus nodos son conceptos y sus vértices son las relaciones. El equipo de Google han puesto algunos ejemplos en su blog.
La diferencia de SLING con otros sistemas que hacen este tipo de tareas, es que el de Google funciona a través de una red neuronal recurrente para poder construir la gráfica semántica. SLING entrena una red neuronal recurrente optimizando los marcos semánticos de interés. El programa interno aprende las representaciones en las capas ocultas de la red neuronal, que son la combinación y representación intermedia en un sistema de esta naturaleza. Internamente, SLING usa una arquitectura de codificador/decodificador en donde cada palabra que se codifica lo hace como un vector usando las características lexicográficas simples, sus sufijos, su puntuación, etcétera. El decodificador usa esta representación para calcular la secuencia de transiciones que actualizan la gráfica para obtener así la representación semántica apropiada de la oración de entrada. SLING entrena el modelo usando TensorFlow y DRAGNN.
SLING está escrito en C++ y está en GitHub. Viene pre-entrenado con algunos datos.
Comentarios
Publicar un comentario