en | es | de | gl
|
Lista de obras
|
Equipo
|
Contacto

Sobre PaGeS


El Parallel Corpus German / Spanish, PaGeS , es un corpus paralelo bilingüe compuesto de textos originales y traducidos en alemán y español, así como un pequeño porcentaje de traducciones en alemán y español de una tercera lengua que han sido alineadas a nivel de oración.

Los textos forman una colección de ficción (aproximadamente el 90% de novelas y relatos breves) y no ficción (ensayos y textos científicos populares) que se va incrementando. Muchos de los libros seleccionados están representados no por los textos completos sino por muestras, lo que permite una mejor sección transversal de los textos.

La creación de PaGes es parte de un proyecto de investigación más amplio que tiene como objetivo estudiar y analizar la expresión de las relaciones espaciales en español y alemán. Este proyecto está a cargo del grupo de investigación SpatiAlEs, dirigido por la profesora Irene Doval de la Universidad de Santiago de Compostela, Galicia.

A pesar de que el Corpus fue creado para el propósito mencionado, se están haciendo esfuerzos en cuanto a interoperabilidad y estandarización para diseñar un recurso multifuncional capaz de satisfacer las necesidades de diversos grupos de usuarios. La idea principal detrás de este esfuerzo es construir un recurso lingüístico representativo para el alemán y el español que pueda ser explotado para múltiples propósitos. Estas aplicaciones pueden incluir investigación general en lingüística contrastiva, tipología lingüística, estudios de traducción y lexicografía bilingüe, así como servir de entrenamiento a sistemas de traducción automática. El Corpus también es útil para los estudiantes alemanes o españoles de niveles intermedios y avanzados para obtener una multitud de sugerencias de traducción mostradas en ejemplos de uso.

En la etapa actual (noviembre 2018), PaGeS contiene 25,000,000 palabras (si se consideran los signos de puntuación y otros símbolos se llega a los 28,000,000 de tokens) y 858,470 bisegmentos, es decir, pares de unidades alineadas (oraciones o segmentos más pequeños). Para garantizar la calidad del corpus se ha verificado manualmente a diferentes niveles, incluyendo el preprocesamiento, así como la segmentación y alineación de oraciones. De cada texto se facilita la información sobre el autor, título, año de la primera publicación y, en su caso, la edición utilizada.

Estadísticas (Versión: 15/11/2018)

LENGUA OBRAS BISEGMENTOS TYPES PALABRAS
Alemán Original 62 386,314 158,198 5,081,806
Alemán Traducción < Español 54 319,315 136,543 5,057,274
Alemán Traducción < 3ª Lengua 18 152,841 74,339 2,143,959
Español Original 54 319,315 103,674 5,073,514
Español Traducción < Alemán 62 386,314 102,431 5,311,191
Español Traducción < 3ª Lengua 18 152,841 57,509 2,161,909
Total 134 (x2) 858,470 24,829,653
                                                              
PaGeS Vers. 2.0
Última actualización: 26.04.2019
ISSN 2605-5228 ©SpatiAlEs
Creative Commons Licencia Creative Commons
Universidad de Santiago de Compostela
Este proyecto es financiado por la Agencia Estatal de Investigación del Ministerio de Ciencia, Innovación e Universidades (FFI2017-85938-R) y por la Consellería de Economía y Competitividad de la Xunta de Galicia (2017-PG023).