Introducción

Una de las aportaciones más relevantes del SUEDIF dentro y fuera del ámbito de la lengua es la generación de corpus lingüísticos. Un corpus lingüístico corresponde a la recopilación de datos extraídos de la realidad y orientados a una línea de investigación específica que, posteriormente, son analizados a través de programas computacionales.

Además de la objetividad en el estudio, otra de las ventajas de la lingüística de corpus es la posibilidad de abarcar volúmenes masivos, de millones de palabras, y analizarlos rápidamente, con un mínimo margen de error, lo que permite al investigador obtener resultados pertinentes a partir de una base de datos extensa y completa.

La necesidad de profundizar en las investigaciones ha llevado a que una gran cantidad de instituciones y universidades, como La Universidad de Cambridge y Lancaster University, maneje corpus lingüísticos en sus trabajos. Igualmente, los corpus de la Real Academia de la Lengua Española y la Academia Mexicana de la Lengua se han vuelto un referente no sólo del público especializado, sino también de la gente cuyo interés por la lengua posee diversas inquietudes. Algunos de ellos son:

  • Corpus del Español del Siglo XXI
  • Corpus del Nuevo Diccionario Histórico del Español
  • Corpus de Referencia del Español Actual
  • Corpus Diacrónico del Español
  • Corpus Diacrónico y Diatópico del Español de América

La conformación de corpus lingüísticos no sólo tiene un valor capital dentro de la Lingüística, sino que además posee una metodología de investigación en las humanidades y las ciencias sociales que permite identificar y abstraer patrones. Hasta ahora, el Seminario cuenta con los siguientes corpus:

  1. Corpus Suprema Corte de la Justicia de la Nación.
  2. Corpus legislativo de trata de personas. 
  3. Corpus Congreso de la Unión.
  4. Corpus legislativo de maltrato infantil.