en | es | de | gl
|
Werkliste
|
Team
|
Kontakt

Über PaGeS


Das Parallel Corpus German / Spanish, PaGeS , ist ein bilinguales Parallelkorpus, das aus einer Sammlung von spanischen und deutschen Originaltexten und deren veröffentlichten Übersetzungen besteht; es enthält außerdem einen kleinen Anteil von spanischen und deutschen Übersetzungen von Texten aus einer dritten Sprache (Englisch, Französisch, Schwedisch, Italienisch).

Es handelt sich um eine wachsende Sammlung von Belletristik (zur Zeit ca. 90 %) sowie von Sachtexten (Essays, Ratgeberliteratur, biographische und populärwissenschaftliche Texte), die auf Satzebene aligniert wurden. Viele der enthaltenen Werke wurden nicht vollständig sondern in Auszügen aufgenommen, um eine höhere Vielfältigkeit der Texte zu erzielen.

Mit dem Aufbau von PaGeS soll eine Sammlung realer Sprachverwendungen als verlässliche Grundlage für die wissenschaftliche Untersuchung und kontrastive Analyse raumlinguistischer Fragestellungen geschaffen werden, bei der Auswahl der Texte werden daher Textsorten bevorzugt, die in ihrer Lexik und Grammatik reich an raumbezogenen Ausdrucksformen sind. Darüber hinaus wird bei dem Korpusdesign jedoch auch das Ziel verfolgt, eine multifunktionale Ressource zu schaffen, die den Anforderungen unterschiedlicher Nutzergruppen gerecht wird und für viele Zwecke geeignet ist. Das Korpus bietet für das Sprachenpaar Spanisch-Deutsch eine umfangreiche Dokumentation realen Sprachgebrauchs und ein sorgfältig geprüftes Alignment der Textsequenzen. Es kann für Untersuchungen in den Bereichen der kontrastiven Linguistik, der Übersetzungswissenschaft und der bilingualen Lexikographie eine wertvolle Datenquelle sein, aber auch ÜbersetzerInnen und fortgeschrittenen Lernenden beider Sprachen vielfältige Verwendungskontexte und Übersetzungsbeispiele aufzeigen.

Beim derzeitigen Stand (November 2018) enthält PaGeS ca. 25.000.000 Textwörter (wenn man auch Interpunktionen hinzunimmt, kommt man auf über 28 Millionen Tokens) und 858.470 Bisegmente von alignierten Textchunks (Sätze oder kleinere Segmente).

Um die Qualität zu sichern, wurden die maschinelle Vorverarbeitung, Segmentierung und Alignierung der Texte manuell überprüft. Für jedes Werk sind Metadaten zu Autor, Titel, Erscheinungsjahr der ersten Ausgabe und Erscheinungsjahr der verwendeten Ausgabe sowie Übersetzer, dialektale Varietät der Original Sprache gespeichert.

Statistiken (Stand: 15.11.2018)

SPRACHE WERKE BISEGMENTE TYPES TEXTWÖRTER
Deutsch Original 62 386,314 158,198 5,081,806
Deutsch Übersetzung < Spanisch 54 319,315 136,543 5,057,274
Deutsch Übersetzung < 3. Sprache 18 152,841 74,339 2,143,959
Spanisch Original 54 319,315 103,674 5,073,514
Spanisch Übersetzung < Deutsch 62 386,314 102,431 5,311,191
Spanisch Übersetzung < 3. Sprache 18 152,841 57,509 2,161,909
Gesamt 134 (x2) 858,470 24,829,653
                                                              
PaGeS Vers. 2.0
Letztes Update: 26.04.2019
ISSN 2605-5228 ©SpatiAlEs
Creative Commons Licencia Creative Commons
Universität Santiago de Compostela
Dieses Projekt wird von der Nationalen Forschungsagentur (AEI) des Spanischen Ministeriums für Wissenschaft, Innovation und Universitäten (FFI2017-85938-R) sowie von der Galizischen Landesregierung (2017-PG023) gefördert.