La Real Academia Española y la Asociación de Academias de la Lengua Española trabajan en lo que será el Corpus del Español del siglo XXI (CORPES). Se trata de la reunión de textos de los más diferentes tipos, procedentes de todos los países del ámbito hispánico. Para esta tarea, mediante carta enviada el 11 de enero, se solicita la colaboración de la editorial Mar Abierto.
En la comunicación se detalla que el corpus comprenderá 25 millones de formas para cada uno de los años abarcados, de modo que el conjunto final tendrá alrededor de 300 millones de formas.
Será la continuación y actualización del Corpus diacrónico del español (CORDE) y del
Corpus de referencia del español actual (CREA), que, en las diferentes versiones que
han tenido, están a disposición de todas las personas interesadas desde hace casi quince
años.
Construir un corpus textual de esta naturaleza supone convertir a formato
electrónico los diferentes materiales que lo integran: novelas, ensayo, noticias de prensa,
artículos de revista, transcripciones de textos orales, materiales presentes en la red... y
codificarlos del modo requerido para que se pueda recuperar la información.
En el desarrollo de los corpus anteriores (CREA y CORDE), fue necesario dedicar
una considerable cantidad de tiempo y esfuerzos al escaneado de libros y su posterior
paso por sistemas de OCR, procesos largos, incómodos y condenados a producir una no
pequeña cantidad de errores derivados de los fallos de la aplicación informática y el
cansancio del ojo humano que hace las revisiones.
una considerable cantidad de tiempo y esfuerzos al escaneado de libros y su posterior
paso por sistemas de OCR, procesos largos, incómodos y condenados a producir una no
pequeña cantidad de errores derivados de los fallos de la aplicación informática y el
cansancio del ojo humano que hace las revisiones.
Guillermo Rojo, coordinador del proyecto CORPES, señala en su carta enviada a Ubaldo Gil, director de Mar Abierto: “afortunadamente, en los últimos años se ha producido un enorme cambio en las posibilidades de trabajo y sabemos que la mayor parte de las editoriales importantes conservan sus publicaciones en formato electrónico. Poder disponer de esos materiales nos facilitaría enormemente nuestro trabajo, que, como he indicado, está destinado a proporcionar gratuitamente los materiales básicos que necesitan las Academias de la lengua y todas las personas interesadas en la investigación sobre el español. El propósito de esta carta es, como habrá imaginado ya, solicitar la colaboración de esa editorial en esta tarea. En caso de que aceptara contribuir a este proyecto hispánico, el equipo central del CORPES estudiaría las publicaciones entre los años 2001 y 2012 y les enviaría una selección de esos textos”.
No hay comentarios:
Publicar un comentario