en | de | es | gl
|
Recursos textuais
|
Publicacións
|
Equipo
|
Contacto

Sobre PaGeS


O Corpus paralelo alemán / español, PaGeS, é un corpus bilingüe composto de dúas partes diferenciadas: un corpus nuclear e uns suplementos.

O corpus nuclear está formado por textos orixinais en alemán e español e as súas respetivas traducións. Consiste nuha colección de 178 obras de ficción (en torno ao 80% de novelas e relatos breves) e non ficción (ensaios e textos científicos divulgativos). As obras seleccionadas están representadas non polos textos completos senón por mostras, o que permite unha mellor sección transversal dos textos.

Esta parte de PaGeS (vid. infra) contén cerca de 38.000.000 tokens e 1.117.040 bisegmentos, é dicir, pares de unidades aliñaadas (oracións ou unidades suboracionales).

Para garantir a calidade verificaronse manualmente os textos incluidos a diferentes niveis e revisáronse íntegramente o alineado automático dos bisegmentos, executado con LF-Aligner, algúns con YouAlign ou Gargantua. Os textos alemans lematizaronse e etiquetáronse con Treetagger e os españoles con Freeling. As etiquetas de ambos foron posteriormente correlacionadas cas etiquetas universales, que marcan as principais categorías de parte de discurso.

De cada ocurrencia facilitouse a fonte orixinal que inclúe información sobre o autor, título, año da primeira publicación, no seu caso, da edición empregada e a parte o capítulo dentro da obra á que pertence a ocurrencia. As indicacións bibliográficas completas das obras incluidas en PaGeS figuran aquí.

Os suplementos comprenden un total dun 80 millóns de palabras. Polo momento inclún:

  1. 18 obras de ficción de textos en alemán e español traducidos dunha terceira lingua. O aliñado destos textos foi revisado manualmente. A lista destas obras atópaseaquí.
  2. Europarl v7, corpus que recolle as actas literais do Parlamento europeo de 1996 a 2011. Excluíronse os segmentos que tiñan máis de 350 caracteres (xa sexa en español ou en alemán) e aqueles cun desequilibrio nos caracteres superior a 1:2 entre o español e o alemán.
  3. Ted-Talks, un corpus que recolle as traduciós en español e alemán das transcripciós de 2859 conferencias TED entre 2006 e 2020.

Nun futuro próximo prevése incorporar novas coleccións de textos bilingües de orixe diverso.

Aínda que o impulso inicial para a creación de PaGeS foi a investigación lingüística contrastiva, a moi boa acollida por parte de usuarios moi diversos motivounos de cara a esforzarnos en conseguir unha maior interoperabilidade e estandarización, a fin de convertir a PaGeS nun recurso multifuncional capaz de satisfacer as necesidades ben diferenciadas de nosos usuarios.

Noso obxetivo é construir un recurso lingüístico representativo para o alemán e o español que poida ser explotado para múltiples propósitos. Aquí inclúese a investigación xeral en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe ou o suministro de datos de entrenamento a sistemas de tradución automática. PaGeS é ademáis un recurso moi útil e ampliamente empregado por parte de traductores e estudantes de alemán ou español como lingua extranxeira de niveis intermedios e avanzados para obter unha multitude de suxerencias de tradución, realizadas por humanos e mostradas en exemplos de uso.

Para unha información máis detallada acerca de PaGeS pódese consultar a páxina de publicacións.

A pesar de tóodolos esforzos, estamos seguros de que se deslizaron erros. Por iso, agradec&eacte;moslle que si os detecta nolo comunique facendo click aquí.

Nota

Se empregas PaGeS nos teus traballos, por favor indícao e comunícanolo a: corpuspages@usc.es. Así contribúes á sostenibilidade do proxecto.

Estatísticas PaGeS

Corpus nuclear

LINGUA CARACTERES TOKENS PALABRAs MSTTRATIO* BISEGMENTOS Obras
Alemán Orixinal 45.774.970 10.313.588 8.784.334 0.577 662.307 108
Español Traducción 43.606.674 10.829.682 9.415.876 0.542
Español Orixinal 35.148.172 8.687.999 7.598.269 0.539 484.590 91
Alemán Traducción 39.138.385 8.787.719 7.517.057 0.572
Total 163.668.201 38.618.725 33.315.536 0.5575 1.146.897 199

Suplementos 1: Obras de ficción traducidas

LINGUA CARACTERES TOKENS PALABRAS MSTTRATIO* BISEGMENTOS OBRAS
Aelmán Traducción 10.885.529 2.463.109 2.097.569 0.569 152.077 18
Español Traducción 10.008.379 2.479.765 2.148.750 0.545
Total 20.893.908 4.942.874 4.246.319 0.557 152.077 18

Suplementos 2: Europarl v7

LINGUA CARACTERES TOKENS PALABRAS MSTTRATIO* BISEGMENTOS
Alemán 203.075.349 37.703.328 33.405.712 0.542 1.555.845
Español 190.849.843 41.518.229 37.694.928 0.481
Total 393.925.192 79.221.557 71.100.640 0.5115 1.555.845

Suplementos: TED-Talks

LINGUA CARACTERES TOKENS PALABRAS MSTTRATIO* BISEGMENTOS
Alemán 25.344.941 5.599.587 4.754.108 0.542 321.924
Español 23.824.529 5.805.812 5.046.593 0.506
Total 49.169.470 11.405.399 9.800.701 0.525 321.924

*MSTTR (Mean Segmental Type-Token Ratio) é a media de TTR por cada 1000 tokens.


(Edición: 01/12/2023, Release 2.1)

                                                    
PaGeS Vers. 2.1
Derradeira actualización : 04.12.2023
ISLRN 300-741-224-666-2
ISSN 2605-5228 ©PaCorES
Creative Commons Licencia Creative Commons
Universidade de Santiago de Compostela
Este proxecto está financiado pola Axencia Estatal de Investigación do Ministerio de Ciencia, Innovación e Universidades (PID2021-125313OB-I00).