en | es | de | gl
|
Recursos textuais
|
Publicacións
|
Equipo
|
Contacto

Sobre PaGeS


O Corpus paralelo alemán / español, PaGeS , é un corpus bilingüe composto de dúas partes diferenciadas: un corpus nuclear e uns suplementos.

O corpus nuclear está formado por textos orixinais en alemán e español e a súas respetivas traducións, así como un pequeno porcentaxe (en torno ao 6%) de textos (en alemán e español) traducidos dunha terceira lingua. Consiste nunha colección de 178 obras de ficción (en torno ao 80% de novelas e relatos breves) e non ficción (ensaios e textos científicos populares). As obras seleccionadas están representadas non polos textos completos senón polas mostras, o que permite unha mellor sección transversal dos textos.

Esta parte de PaGeS (vid. infra) contén cerca de 38.000.000 tokens e 1.117.040 bisegmentos, é dicir, pares de unidades alineadas (oracións ou unidades suboracionales).

Para garantir a calidade verificaronse manualmente os textos incluidos a diferentes niveis e revisáronse íntegramente o alineado automático dos bisegmentos, executado con LF-Aligner. De cada ocurrencia facilitouse a fonte orixinal que inclúe información sobre o autor, título, año da primeira publicación, no seu caso, da edición empregada e a parte o capítulo dentro da obra á que pertence a ocurrencia. As indicacións bibliográficas completas das obras incluidas en PaGeS figuran aquí.

Os suplementos comprenden un total dun 80 millóns de palabras. Polo momento inclún:

  1. Europarl v7, corpus que recolle as actas literais do Parlamento europeo de 1996 a 2011. Os segmentos con máis de 80 palabras (en español e/ou en alemán) ou segmentos cun número de caracteres moi dispar entre español e alemán foron excluidos.
  2. Ted-Talks, un corpus que recolle as traduciós en español e alemán das transcripciós de 2859 conferencias TED entre 2006 e 2020.

Nun futuro próximo prevése incorporar novas coleccións de textos bilingües de orixe diverso.

Aínda que o impulso inicial para a creación de PaGeS foi a investigación lingüística contrastiva, a moi boa acollida por parte de usuarios moi diversos motivounos de cara a esforzarnos en conseguir unha maior interoperabilidade e estandarización, a fin de convertilar a PaGeS nun recurso multifuncional capaz de satisfacer as necesidades ben diferenciadas de nosos usuarios. Noso obxetivo é construir un recurso lingüístico representativo para o alemán e o español que poida ser explotado para múltiples propósitos. Aquí inclúese a investigación xeral en lingüística contrastiva, tipoloxía lingüística, estudos de tradución e lexicografía bilingüe ou o suministro de datos de entrenamento a sistemas de tradución automática. PaGeS é ademáis un recurso moi útil e ampliamente empregado por parte de traductores e estudantes de alemán ou español como lingua extranxeira de niveis intermedios e avanzados para obter unha multitude de suxerencias de tradución, realizadas por humanos e mostradas en exemplos de uso.

Para unha información máis detallada acerca de PaGeS pode consultarse a páxina de publicacións.

A pesar de tóodolos esforzos, estamos seguros de que se deslizaron erros. Por iso, agradec&eacte;moslle que si os detecta nolo comunique facendo click aquí.

Nota

Se empregas PaGeS nos teus traballos, por favor indícao e comunícanolo a: corpuspages@usc.es. Así contribúes á sostenibilidade do proxecto.

Estatísticas PaGeS

Corpus nuclear

LINGUA CARACTERES PALABRAS TOKENS TIPOS BISEGMENTOS OBRAS
Alemán Orixinal 37.291.320 6.7951.11 7.916.098 702 444 504.318 86
Español Tradución 35.583.020 7.310.765 8.352.177 136.627
Español Orixinal 34.871.266 7.255.827 8.270.893 143.217 461.428 74
Alemán Tradución 38.881.096 7.178.719 8.368.826 186.569
Alemán Tradución <3ª lingua 11.247.605 2.084.860 2.464.909 74.244 151.294 18
Español Tradución <3ª lingua 10.337.022 2.149.204 2.483.199 57.389
Total 168.211.329 32.774.486 37.856.102 1.117.040 178

Suplementos: Europarl v7

LINGUA CARACTERES PALABRAS TOKENS BISEGMENTOS
Alemán 219.099.293 35.222.373 39.726.336 1.586.374
Español 205.008.875 39.664.923 43.662.223
Total 424.108.168 74.887.296 83.388.559 1.586.374

Suplementos: TED-Talks

LINGUA CARACTERES PALABRAS TOKENS TIPOS BISEGMENTOS
Alemán 31.269.086 4.758.244 5.186.945 164.318 310.968
Español 30.180.586 5.045.346 5.356.693 107.136
Total 61.449.672 9.803.590 10.543.638 271.454 310.968


(Edición: 01/09/2021)

PaGeS Vers. 2.0
Actualización : 22.11.2022
ISLRN 300-741-224-666-2 ISSN
2605-5228 ©PaCorES
Creative Commons Licencia Creative Commons
Universidade de Santiago de Compostela
Este proxecto está financiado pola Axencia Estatal de Investigación do Ministerio de Ciencia, Innovación e Universidades (PID2021-125313OB-I00).