en | es | de | gl
|
Listaxe de obras
|
Equipo
|
Contacto

Sobre PaGeS


O Parallel Corpus German / Spanish, PaGeS , é un corpus paralelo bilingüe composto de textos orixinais e traducidos en alemán e español, así como unha pequena porcentaxe de traducións en alemán e español dunha terceira lingua que foron aliñadas a nivel de oración.

Os textos son unha colección de ficción (aproximadamente o 90% de novelas e relatos breves) e non ficción (ensaios e textos científicos populares) que se vai incrementando. Moitos dos libros seleccionados están representados non polos textos completos senón por mostras, o que permite unha mellor sección transversal dos textos.

A creación de PaGes é parte dun proxecto de investigación máis amplo que ten como obxectivo estudar e analizar a expresión das relacións espaciais en español e alemán. Este proxecto está a cargo do grupo de investigación SpatiAlEs, dirixido pola profesora Irene Doval da Universidade de Santiago de Compostela, Galiza.

Aínda que o Corpus foi creado co propósito mencionado, estanse facendo esforzos en canto á interoperabilidade e estandarización co fin de deseñar un recurso multifuncional capaz de satisfacer as necesidades de diversos grupos de usuarios. A idea principal detrás de este esforzo é construir un recurso lingüístico representativo para o alemán e o español que poda ser explotado con múltiples propósitos. Estas aplicacións poden incluir investigación xeral en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe, así como servir de entrenamento a sistemas de tradución automática. O Corpus tamén é útil para os estudantes alemáns ou españois de niveis intermedios e avanzados para obter unha multitude de suxerencias de tradución mostradas en exemplos de uso.

Na etapa actual (novembro 2018), PaGeS contén 25,000,000 palabras (se se consideran os signos de puntuación e outros símbolos chégase aos 28,000,000 de tokens) e 858,470 bisegmentos, é dicir, pares de unidades aliñadas (oracións ou segmentos máis pequenos). Para garantir a calidade do corpus verificouse manualmente a diferentes niveis, incluíndo o preprocesamento, así como a segmentación e aliñación de oracións. De cada texto facilítase a información sobre o autor, título, ano da primeira publicación e, no seu caso, a edición utilizada.

Estatísticas (Versión: 15/11/2018)

LINGUA OBRAS BISEGMENTOS TYPES PALABRAS
Alemán Orixinal 62 386,314 158,198 5,081,806
Alemán Traducción < Español 54 319,315 136,543 5,057,274
Alemán Traducción < 3ª Lingua 18 152,841 74,339 2,143,959
Español Orixinal 54 319,315 103,674 5,073,514
Español Traducción < Alemán 62 386,314 102,431 5,311,191
Español Traducción < 3ª Lingua 18 152,841 57,509 2,161,909
Total 134 (x2) 858,470 24,829,653
                                                              
PaGeS Vers. 2.0
Derradeira actualización : 26.04.2019
ISSN 2605-5228 ©SpatiAlEs
Creative Commons Licencia Creative Commons
Universidade de Santiago de Compostela
Este proxecto está financiado pola Axencia Estatal de Investigación do Ministerio de Ciencia, Innovación e Universidades (FFI2017-85938-R) e pola Consellería de Economía e Competitividade da Xunta de Galicia (2017-PG023).