El léxico
de SIGNUM se basa en un núcleo
de más de 115 000 vocablos que incluye
buena parte de la terminología local
de cada país hispanohablante y el vocabulario
técnico de muchos campos de la ciencia
y del comercio. Contiene además nuevos términos
que son comúnmente usados hoy en día
en publicaciones pero que no aparecen en muchos
diccionarios así como palabras
no frecuentes que aparecen en la literatura
especializada.
El contenido de nuestro léxico está complementado
por las derivaciones y flexiones que éstas
pueden tener. Contempla derivaciones de género,
número, diminutivos, aumentativos, superlativos
y derivaciones peyorativas; abarca todas las
conjugaciones verbales y los enclíticos
más usados en español; asimismo,
incluye morfemas derivativos como "-mente" "-ismo" "super-" "semi-" "pre-" "pos-",
entre otros. Si tomamos en cuenta todas estas
derivaciones, el tamaño del léxico
llega a
5 000 000 de palabras.
Cada término tiene
docenas de atributos y provee de esta manera
datos morfológicos, gramaticales, semánticos
y otro tipo de información como el "índice
de frecuencia", el cual nos indica cuan común
o rara es la palabra.
Dos características importantes que se
pueden resaltar del léxico de SIGNUM es que es utilizado de manera óptima por
nuestros motores lingüísticos y
forma así su diccionario base, sobre
el cual trabajan muchos de estos motores; por otro lado es posible generar listas de palabras que consistan
en determinados tipos de lemas, formas derivadas
o palabras con características especiales,
de acuerdo a los requerimientos específicos
de una aplicación o las exigencias
de un usuario que necesite un léxico
depurado y de alta calidad.