en | es | de | gl
|
Recursos textuales
|
Publicaciones
|
Equipo
|
Contacto

Sobre PaGeS


El Corpus paralelo alemán / español, PaGeS , es un corpus bilingüe compuesto de dos partes diferenciadas: un corpus nuclear y unos suplementos.

El corpus nuclear está formado por textos originales en alemán y español y sus respectivas traducciones, así como un pequeño porcentaje (en torno al 8%) de textos (en alemán y español) traducidos de una tercera lengua. Consiste en una colección de 169 obras de ficción (en torno al 80% de novelas y relatos breves) y no ficción (ensayos y textos científicos populares). Las obras seleccionadas están representadas no por los textos completos sino por muestras, lo que permite una mejor sección transversal de los textos.

Esta parte de PaGeS (vid. infra) contiene unas 36.000.000 tokens y 1.055.685 bisegmentos, es decir, pares de unidades alineadas (oraciones o unidades suboracionales).

Para garantizar la calidad se han verificado manualmente los textos incluidos a diferentes niveles y se ha revisado íntegramente el alineado automático de los bisegmentos. De cada ocurrencia se facilita la fuente original que incluye información sobre el autor, título, año de la primera publicación, en su caso, de la edición utilizada y la parte o capítulo dentro de la obra a la que pertenece la ocurrencia. Las indicaciones bibliográficas completas de las obras incluidas en PaGeS figuran aquí.

Los suplementos incluyen por el momento el Europarl v7, corpus que recoge las actas del Parlamento europeo de 1996 a 2011. Esta parte comprende un total de más de 70 millones palabras, tras excluir los segmentos con más de 80 palabras (en español y/o en alemán). En un futuro próximo se prevé incorporar nuevas colecciones de textos bilingües de origen diverso.

Aunque el impulso inicial para la creación de PaGeS fue la investigación lingüística contrastiva, la muy buena acogida por parte de usuarios muy diversos nos ha motivado a esforzarnos en conseguir una mayor interoperabilidad y estandarización, a fin de convertir a PaGeS en un recurso multifuncional capaz de satisfacer las necesidades bien diferenciadas de nuestros usuarios. Nuestro objetivo es construir un recurso lingüístico representativo para el alemán y el español que pueda ser explotado para múltiples propósitos. Aquí se incluye la investigación general en lingüística contrastiva, tipología lingüística, estudios de traducción y lexicografía bilingüe o el suministro de datos de entrenamiento a sistemas de traducción automática. PaGeS es además un recurso muy útil y ampliamente usado por parte de traductores y estudiantes de alemán o español como lengua extranjera de niveles intermedios y avanzados para obtener una multitud de sugerencias de traducción, realizadas por humanos y mostradas en ejemplos de uso.

Para una información más detallada acerca de PaGeS puede consultarse la página de publicaciones.

A pesar de todos los esfuerzos, estamos seguros de que se han deslizado errores. Por ello, le agradecemos que si los detecta nos lo comunique a este correo-e: corpuspages@usc.es, con la indicación del id del segmento en el que se ha detectado el error.

Nota

Si usas PaGeS en tus trabajos, por favor indícalo y comunícanoslo a: corpuspages@usc.es. Así contribuyes a la sostenibilidad del proyecto.

Estadísticas PaGeS

Corpus nuclear

LENGUA CARACTERES PALABRAS TOKENS TIPOS BISEGMENTOS OBRAS
Alemán Original 34.020.927 6.280.994 7.402.194 188.540 461.768 81
Español Traducción 32.520.223 6.781.481 7.823.016 109.921
Español Original 33.403.052 7.010.327 8.026.021 119.501 442.623 70
Alemán Traducción 37.212.971 6.924.157 8.114.878 162.972
Alemán Traducción <3ª lengua 11.247.605 2.084.860 2.464.909 74.244 151.294 18
Español Traducción <3ª lengua 10.337.022 2.149.204 2.483.199 57.389
Total 158.741.830 31.267.205 36.314.217 1.055.685 169

Suplementos: Europarl v7

LENGUA CARACTERES PALABRAS TOKENS BISEGMENTOS
Alemán 219.099.293 35.222.373 39.726.336 1.586.374
Español 205.008.875 39.664.923 43.662.223
Total 424.108.168 74.887.296 83.388.559 1.586.374


(Edición: 01/05/2020)

                                                              
PaGeS Vers. 2.0
Última actualización: 20.05.2020
ISSN 2605-5228 ©SpatiAlEs
Creative Commons Licencia Creative Commons
Universidad de Santiago de Compostela
Este proyecto es financiado por la Agencia Estatal de Investigación del Ministerio de Ciencia, Innovación e Universidades (FFI2017-85938-R) y por la Consellería de Economía y Competitividad de la Xunta de Galicia (2017-PG023).