Sobre PaGeS

El Corpus Paralelo alemán / español (German/Spanish Parallel Corpus), PaGeS, forma parte de un proyecto mayor en curso, PaCorEs (Parallel Corpora Spanish), cuyo objetivo es recopilar una serie de corpus paralelos bilingües con el español como lengua central. Hasta ahora, el proyecto incluye otros tres corpus que se encuentran en diferentes fases de desarrollo, disponibles libremente en línea: Corpus PaEnS (inglés<>español), Corpus PaCheS (chino<>español) y Corpus PaFreS (francés<>español).

El Corpus paralelo alemán / español, PaGeS, es un corpus bilingüe compuesto de dos partes diferenciadas: un corpus nuclear y unos suplementos.

El corpus nuclear está formado por textos originales en alemán y español y sus respectivas traducciones. Consiste en una colección de 229 obras de ficción (en torno al 80% de novelas y relatos breves) y no ficción (ensayos y textos científicos divulgativos). Las obras seleccionadas están representadas no por los textos completos sino por muestras, lo que permite una mejor sección transversal de los textos.

Esta parte de PaGeS (vid. infra) contiene cerca de 42.000.000 tokens y 1.246.733 bisegmentos, es decir, pares de unidades alineadas (oraciones o unidades suboracionales).

Para garantizar la calidad se han verificado manualmente los textos incluidos a diferentes niveles y se ha revisado íntegramente el alineado automático de los bisegmentos, ejecutado con LF-Aligner, algunos con YouAlign o Gargantua. Los textos alemanes se han lematizado y etiquetado con Treetagger y los españoles con Freeling. Las etiquetas de ambos han sido posteriormente correlacionadas con las etiquetas universales, que marcan las principales categorías de parte de discurso.

De cada ocurrencia se facilita la fuente original que incluye información sobre el autor, título, año de la primera publicación, en su caso, de la edición utilizada y la parte o capítulo dentro de la obra a la que pertenece la ocurrencia. Las indicaciones bibliográficas completas de las obras incluidas en PaGeS figuran aquí.

Los suplementos comprenden un total de unos 80 millones de palabras. Por el momento incluyen:

18 obras de ficción de textos en alemán y español traducidos de una tercera lengua. El alineado de estos textos ha sido revisado manualmente. La lista de estas obras se encuentra aquí.
Europarl v7, corpus que recoge las actas literales del Parlamento europeo de 1996 a 2011. Se excluyeron los segmentos que tenían más de 350 caracteres (ya sea en español o en alemán) y aquellos con un desequilibrio en los caracteres superior a 1:2 entre español y alemán. Más detalles aquí.
Ted-Talks, un corpus que recoge las traducciones en español y alemán de las transcripciones de 2859 conferencias TED entre 2006 y 2020. Más detalles aquí.
OpenSubtitles v2018, una extensa colección de subtítulos traducidos de películas.
MSD Manuals es un corpus de textos médicos que incluye las traducciones al español y al alemán de artículos del Manual MSD. Versión para el público general y del Manual MSD. Versión para profesionales (Merck & Co.). Más detalles aquí.

En un futuro próximo se prevé incorporar nuevas colecciones de textos bilingües de origen diverso.

Aunque el impulso inicial para la creación de PaGeS fue la investigación lingüística contrastiva, la muy buena acogida por parte de usuarios muy diversos nos ha motivado a esforzarnos en conseguir una mayor interoperabilidad y estandarización, a fin de convertir a PaGeS en un recurso multifuncional capaz de satisfacer las necesidades bien diferenciadas de nuestros usuarios.

Nuestro objetivo es construir un recurso lingüístico representativo para el alemán y el español que pueda ser explotado para múltiples propósitos. Aquí se incluye la investigación general en lingüística contrastiva, tipología lingüística, estudios de traducción y lexicografía bilingüe o el suministro de datos de entrenamiento a sistemas de traducción automática. PaGeS es además un recurso muy útil y ampliamente usado por parte de traductores y estudiantes de alemán o español como lengua extranjera de niveles intermedios y avanzados para obtener una multitud de sugerencias de traducción, realizadas por humanos y mostradas en ejemplos de uso.

Para una información más detallada acerca de PaGeS puede consultarse la página de publicaciones. Véase especialmente Doval, Irene / Sánchez Nieto, M.ª Teresa (en prensa): Parallel Corpora Spanish (PaCorES): A collection of multifunctional parallel corpora. In: RESLA. Revista Española de Lingüística Aplicada / Spanish Journal of Applied Linguistics.

A pesar de todos los esfuerzos, estamos seguros de que se han deslizado errores. Por ello, le agradecemos que si los detecta nos lo comunique haciendo click aquí.

Nota

Si usa PaGeS en tus trabajos, por favor indíquelo y comuníquenoslo a: corpuspages@usc.es. Así contribuye a la sostenibilidad del proyecto.

Estadísticas PaGeS

Corpus nuclear

LENGUA	CARACTERES	PALABRAS	TOKENS	MSTTRATIO*	BISEGMENTOS	OBRAS
Alemán Original	48.949.765	9.419.402	11.049.990	0.577	702.731	114
Español Traducción	46.634.694	10.083.202	11.581.354	0.542	702.731	114
Español Original	40.047.261	8.579.478	9.809.708	0,539	544.002	115
Alemán Traducción	44.210.720	8.494.546	9.924.406	0.572	544.002	115
Total	179.842.440	36.576.628	42.365.458	0.557	1.246.733	229

Suplementos 1: Obras de ficción traducidas

LENGUA	CARACTERES	PALABRAS	TOKENS	MSTTRATIO*	BISEGMENTOS	OBRAS
Alemán Traducción	10.885.529	2.097.569	2.463.109	0.569	152.077	18
Español Traducción	10.008.379	2.148.750	2.479.765	0.545	152.077	18
Total	20.893.908	4.246.319	4.942.874	0.557	152.077	18

Suplementos 2: Europarl v7

LENGUA	CARACTERES	PALABRAS	TOKENS	MSTTRATIO*	BISEGMENTOS
Alemán	203.075.349	33.405.712	37.703.328	0.542	1.555.009
Español	190.849.843	37.694.928	41.518.229	0.481	1.555.009
Total	393.925.192	71.100.640	79.221.557	0.512	1.555.009

Suplementos 3: TED-Talks

LENGUA	CARACTERES	PALABRAS	TOKENS	MSTTRATIO*	BISEGMENTOS
Alemán	23.827.783	5.805.812	5.805.812	0.506	321.924
Español	25.347.694	4.754.108	5.599.587	0.543	321.924
Total	49.175.477	9.800.701	11.405.399	0.525	321.924

Suplementos 4: OpenSubtitles v2018

LENGUA	CARACTERES	PALABRAS	TOKENS	MSTTRATIO*	BISEGMENTOS
Alemán	175.689.253	37.703.271	47.050.044	0,565	5.840.417
Español	159.707.973	36.664.180	46.709.094	0,575	5.840.417
Total	335.397.226	74.367.451	93.759.138	0.570	5.840.417

Suplementos 5: MSD Manuals

LENGUA	CARACTERES	PALABRAS	TOKENS	MSTTRATIO*	BISEGMENTOS
Alemán	53.822.200	7.912.799	8.955.905	0,5349	583.774
Español	52.516.887	9.593.480	10.539.033	0,4573	583.774
Total	106.339.087	17.506.279	19.494.938	0.496	583.774

*MSTTR (Mean Segmental Type-Token Ratio) es la media de TTR por cada 1000 tokens.

(Edición: 07/01/2026, Release 2.3)

Editor Protección de datos & Condiciones de uso

PaGeS Vers. 2.3
Última actualización: 12.01.2026
ISLRN 300-741-224-666-2
ISSN 2605-5228 ©PaCorES
Creative Commons Licencia Creative Commons

Universidad de Santiago de Compostela

Este proyecto es financiado por la Agencia Estatal de Investigación del Ministerio de Ciencia, Innovación e Universidades (PID2021-125313OB-I00).