en | es | de | gl
|
Recursos textuais
|
Publicacións
|
Equipo
|
Contacto

Sobre PaGeS


O Corpus paralelo alemán / español, PaGeS , é un corpus bilingüe composto de dúas partes diferenciadas: un corpus nuclear e uns suplementos.

O corpus nuclear está formado por textos orixinais en alemán e español e a súas respetivas traducións, así como un pequeno porcentaxe (en torno ao 8%) de textos (en alemán e español) traducidos dunha terceira lingua. Consiste nunha colección de 169 obras de ficción (en torno ao 80% de novelas e relatos breves) e non ficción (ensaios e textos científicos populares). As obras seleccionadas están representadas non polos textos completos senón polas mostras, o que permite unha mellor sección transversal dos textos.

Esta parte de PaGeS (vid. infra) contén unha 36.000.000 tokens e 1.055.685 bisegmentos, é dicir, pares de unidades alineadas (oracións ou unidades suboracionales).

Para garantir a calidade verificaronse manualmente os textos incluidos a diferentes niveis e revisáronse íntegramente o alineado automático dos bisegmentos. De cada ocurrencia facilitouse a fonte orixinal que inclúe información sobre o autor, título, año da primeira publicación, no seu caso, da edición empregada e a parte o capítulo dentro da obra á que pertence a ocurrencia. As indicacións bibliográficas completas das obras incluidas en PaGeS figuran aquí.

Os suplementos inclúen polo momento o Europarl v7, corpus que recolle as actas do Parlamento europeo de 1996 a 2011. Esta parte comprende un total de máis de 70 millóns palabras, tras excluir os segmentos con máis de 80 palabras (en español y/o en alemán). Nun futuro próximo prevese incorporar novas coleccións de textos bilingües de orixe diverso.

Aínda que o impulso inicial para a creación de PaGeS foi a investigación lingüística contrastiva, a moi boa acollida por parte de usuarios moi diversos motivounos de cara a esforzarnos en conseguir unha maior interoperabilidade e estandarización, a fin de convertilar a PaGeS nun recurso multifuncional capaz de satisfacer as necesidades ben diferenciadas de nosos usuarios. Noso obxetivo é construir un recurso lingüístico representativo para o alemán e o español que poida ser explotado para múltiples propósitos. Aquí inclúese a investigación xeral en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe ou o suministro de datos de entrenamento a sistemas de tradución automática. PaGeS é ademáis un recurso moi útil e ampliamente empregado por parte de traductores e estudantes de alemán ou español como lingua extranxeira de niveis intermedios e avanzados para obter unha multitude de suxerencias de tradución, realizadas por humanos e mostradas en exemplos de uso.

Para unha información máis detallada acerca de PaGeS pode consultarse a páxina de publicacións.

A pesar de tódolos esforzos, estamos seguros de que se deslizaron erros. Por iso, agradecemoslle que se os detecta nolo comunique a este enderezo-e: corpuspages@usc.es, coa indicación do id do segmento no que se detectou o erro.

Nota

Se empregas PaGeS nos teus traballos, por favor indícao e comunícanolo a: corpuspages@usc.es. Así contribúes á sostenibilidade do proxecto.

Estatísticas PaGeS

Corpus nuclear

LINGUA CARACTERES PALABRAS TOKENS TIPOS BISEGMENTOS OBRAS
Alemán Orixinal 34.020.927 6.280.994 7.402.194 188.540 461.768 81
Español Tradución 32.520.223 6.781.481 7.823.016 109.921
Español Orixinal 33.403.052 7.010.327 8.026.021 119.501 442.623 70
Alemán Tradución 37.212.971 6.924.157 8.114.878 162.972
Alemán Tradución <3ª lingua 11.247.605 2.084.860 2.464.909 74.244 151.294 18
Español Tradución <3ª lingua 10.337.022 2.149.204 2.483.199 57.389
Total 158.741.830 31.267.205 36.314.217 1.055.685 169

Suplementos: Europarl v7

LINGUA CARACTERES PALABRAS TOKENS BISEGMENTOS
Alemán 219.099.293 35.222.373 39.726.336 1.586.374
Español 205.008.875 39.664.923 43.662.223
Total 424.108.168 74.887.296 83.388.559 1.586.374


(Edición: 01/05/2020)

                                                              
PaGeS Vers. 2.0
Derradeira actualización : 20.05.2020
ISSN 2605-5228 ©SpatiAlEs
Creative Commons Licencia Creative Commons
Universidade de Santiago de Compostela
Este proxecto está financiado pola Axencia Estatal de Investigación do Ministerio de Ciencia, Innovación e Universidades (FFI2017-85938-R) e pola Consellería de Economía e Competitividade da Xunta de Galicia (2017-PG023).