O Corpus paralelo alemán / español, PaGeS , é un corpus bilingüe composto de dúas partes diferenciadas: un corpus nuclear e uns suplementos.
O corpus nuclear está formado por textos orixinais en alemán e español e a súas respetivas traducións, así como un pequeno porcentaxe (en torno ao 6%) de textos (en alemán e español) traducidos dunha terceira lingua. Consiste nunha colección de 178 obras de ficción (en torno ao 80% de novelas e relatos breves) e non ficción (ensaios e textos científicos populares). As obras seleccionadas están representadas non polos textos completos senón polas mostras, o que permite unha mellor sección transversal dos textos.
Esta parte de PaGeS (vid. infra) contén cerca de 38.000.000 tokens e 1.117.040 bisegmentos, é dicir, pares de unidades alineadas (oracións ou unidades suboracionales).
Para garantir a calidade verificaronse manualmente os textos incluidos a diferentes niveis e revisáronse íntegramente o alineado automático dos bisegmentos, executado con LF-Aligner. De cada ocurrencia facilitouse a fonte orixinal que inclúe información sobre o autor, título, año da primeira publicación, no seu caso, da edición empregada e a parte o capítulo dentro da obra á que pertence a ocurrencia. As indicacións bibliográficas completas das obras incluidas en PaGeS figuran aquí.
Os suplementos comprenden un total dun 80 millóns de palabras. Polo momento inclún:
Nun futuro próximo prevése incorporar novas coleccións de textos bilingües de orixe diverso.
Aínda que o impulso inicial para a creación de PaGeS foi a investigación lingüística contrastiva, a moi boa acollida por parte de usuarios moi diversos motivounos de cara a esforzarnos en conseguir unha maior interoperabilidade e estandarización, a fin de convertilar a PaGeS nun recurso multifuncional capaz de satisfacer as necesidades ben diferenciadas de nosos usuarios. Noso obxetivo é construir un recurso lingüístico representativo para o alemán e o español que poida ser explotado para múltiples propósitos. Aquí inclúese a investigación xeral en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe ou o suministro de datos de entrenamento a sistemas de tradución automática. PaGeS é ademáis un recurso moi útil e ampliamente empregado por parte de traductores e estudantes de alemán ou español como lingua extranxeira de niveis intermedios e avanzados para obter unha multitude de suxerencias de tradución, realizadas por humanos e mostradas en exemplos de uso.
Para unha información máis detallada acerca de PaGeS pode consultarse a páxina de publicacións.
A pesar de tóodolos esforzos, estamos seguros de que se deslizaron erros. Por iso, agradec&eacte;moslle que si os detecta nolo comunique facendo click aquí.
Nota
Se empregas PaGeS nos teus traballos, por favor indícao e comunícanolo a: corpuspages@usc.es. Así contribúes á sostenibilidade do proxecto.
Estatísticas PaGeS
Corpus nuclear
LINGUA | CARACTERES | PALABRAS | TOKENS | TIPOS | BISEGMENTOS | OBRAS |
Alemán Orixinal | 37.291.320 | 6.7951.11 | 7.916.098 | 702 444 | 504.318 | 86 |
Español Tradución | 35.583.020 | 7.310.765 | 8.352.177 | 136.627 | ||
Español Orixinal | 34.871.266 | 7.255.827 | 8.270.893 | 143.217 | 461.428 | 74 |
Alemán Tradución | 38.881.096 | 7.178.719 | 8.368.826 | 186.569 | ||
Alemán Tradución <3ª lingua | 11.247.605 | 2.084.860 | 2.464.909 | 74.244 | 151.294 | 18 |
Español Tradución <3ª lingua | 10.337.022 | 2.149.204 | 2.483.199 | 57.389 | ||
Total | 168.211.329 | 32.774.486 | 37.856.102 | 1.117.040 | 178 |
Suplementos: Europarl v7
LINGUA | CARACTERES | PALABRAS | TOKENS | BISEGMENTOS |
Alemán | 219.099.293 | 35.222.373 | 39.726.336 | 1.586.374 |
Español | 205.008.875 | 39.664.923 | 43.662.223 | |
Total | 424.108.168 | 74.887.296 | 83.388.559 | 1.586.374 |
Suplementos: TED-Talks
LINGUA | CARACTERES | PALABRAS | TOKENS | TIPOS | BISEGMENTOS |
Alemán | 31.269.086 | 4.758.244 | 5.186.945 | 164.318 | 310.968 |
Español | 30.180.586 | 5.045.346 | 5.356.693 | 107.136 | |
Total | 61.449.672 | 9.803.590 | 10.543.638 | 271.454 | 310.968 |
(Edición: 01/09/2021)
![]() |
![]() |
![]() |
![]() |
PaGeS
Vers. 2.0 Actualización : 22.11.2022 ISLRN 300-741-224-666-2 ISSN 2605-5228 ©PaCorES Creative Commons ![]() Universidade de Santiago de Compostela |