El sistema lingüistico español informatizado - SLEI
Autor: Sergio Marrero Suárez
Tutor: Francisco Javier Carreras Riudavets
El presente proyecto contempla la creación de un sistema de información que contenga el Sistema Lingüístico Español en lo referente, principalmente, a la morfología y también aquellos aspectos estáticos de la sintaxis y la semántica susceptibles de ser contemplados y de interés para el procesamiento del lenguaje natural. Permite el almacenamiento y control de las siguientes características de la lengua española: formas canónicas, categorías gramaticales, género y número, apreciación, derivación, antigua o desusada, conjugación verbal, acepciones, sufijación, prefijación, parasíntesis y otros, relaciones morfoléxicas, sinonimia, regímenes preposicionales, clasificación semántica, acepciones y localización de la fuente. El Sistema refleja las relaciones que existen en la lengua española entre las distintas características contempladas, así como la gran cantidad de excepciones e irregularidades de nuestra lengua en los aspectos recogidos.
Dada la complejidad del Sistema Lingüístico Español, se hace necesario el desarrollo de un sistema capaz de almacenar la información de una forma ordenada, simple y a la vez estructurada, y que permita reflejar la abundancia de excepciones e irregularidades de nuestra lengua.
El Sistema debe contemplar las entradas de los principales repertorios lexicográficos de la lengua española, sus diferentes acepciones, intentando minimizar la redundancia, sobre todo en los sinónimos, categorías gramaticales a las que pertenece, las distintas clasificaciones semánticas de la palabra, sus heteronimias, terminaciones que se le asocian, etc. A su vez, debe contemplar su morfología, diferenciando entre raíz y terminación. Se define la palabra como unidad mínima y principal de almacenamiento, sin distinguir los morfemas. Junto a esta unidad principal de almacenamiento, la palabra, se contempla las distintas relaciones que puede tener con otras palabras como son:
- Las relaciones sinonímicas.
- Los regímenes preposicionales.
- Las relaciones morfoléxicas, contemplando la sufijación, prefijación y parasíntesis, representando en forma de familias las estructuras que representan.
Además como caso particular de palabra, debe reflejarse el verbo. Para este caso, debe contemplar, además de los datos comunes con las palabras, los modelos de conjugación de los distintos verbos, sus irregularidades, sus defectividades, suplencias de defectividad y participios.
Con este sistema se pretende dar un paso más en el difícil camino del procesamiento del lenguaje natural, al dar la posibilidad de organizar y controlar los aspectos más relevantes de la lengua española. Se avanza así, hacia la posibilidad de utilizar, con fines específicos en futuras aplicaciones, la información que se contempla. Como ejemplo, podría ser el diseño del motor de los diccionarios electrónicos del futuro.
- Definir un modelo de datos relacional, sin ambigüedades, capaz de almacenar toda la información. El modelo debe contemplar las distintas entidades, las relaciones de consistencia, integridad referencial, validaciones, etc.
- Diseñar y desarrollar una interfase de mantenimiento que tenga en cuenta las relaciones controlando la integridad referencial entre los datos y su consistencia, de una manera sencilla y de fácil manejabilidad.
- Permitir de una forma óptima consultas y listados de la información.
- Diseñar un modelo de seguridad para el control de acceso a la información, mediante diferentes perfiles de usuarios.
- Así como planificar los sistemas de salvaguarda de dicha información, en su forma y periodicidad.
- Dotar al sistema de un control que, mediante perfiles de usuario, sea capaz de controlar la forma de acceso y manipulación de la información.
Se propone realizar una Base de Datos Oracle, haciendo un diseño relacional de los datos e incluyendo en el núcleo de la base de datos la mayor cantidad posible de restricciones semánticas, validaciones y chequeo de consistencias. En cuanto a la interfase, se puede desarrollar en las herramientas de desarrollo de Oracle, es decir, en Oracle Developer (Forms y Reports). Es un entorno cliente servidor, de tal forma que los datos residan en un servidor y la interfase en un cliente.
Como cualquier sistema de información, se debe dotar de un mecanismo de salvaguarda de los datos que planifique las copias y su temporalidad. Si es posible con las herramientas de Oracle, o en cualquier caso, a nivel del sistema operativo.