en | es | de | gl
|
Textressourcen
|
Publikationen
|
Team
|
Kontakt

Über PaGeS


Das Parallel Corpus German / Spanish, PaGeS , ist ein bilinguales Parallelkorpus, das aus zwei Hauptteilen besteht: dem Kernkorpus und den Ergänzungen.

Das Kernkorpus enthält Originaltexte in Deutsch und Spanisch und deren veröffentlichte Übersetzungen sowie einen kleinen Anteil (ca. 8%) von Texten, die aus einer dritten Sprache ins Deutsche und ins Spanische übersetzt wurden. Es umfasst eine Sammlung von 169 Werken, überwiegend Belletristik (ca. 80 %) sowie Sachtexte verschiedener Gattungen (Essays, Ratgeberliteratur, biographische und populärwissenschaftliche Texte). Die enthaltenen Werke wurden nicht vollständig sondern in Auszügen aufgenommen, um eine größere Vielfalt an Texten zu erzielen.

Das Kernkorpus von PaGeS (s. die Grafik unten) enthält ca. 36.000.000 Tokens und 1.055.685 Bisegmente, d.h. Paare von alignierten Textchunks (Sätze oder kleinere Segmente).

Um die Qualität zu sichern, wurden die Texte auf verschiedenen Ebenen manuell revidiert und die automatische Alignierung der Bisegmente vollständig geprüft. Für jeden Beleg wird die Originalquelle angegeben, die Informationen zu Autor, Titel, Erscheinungsjahr der ersten und der verwendeten Ausgabe enthält, sowie den Teil oder das Kapitel des Werks anzeigt, aus dem der Beleg stammt. Die vollständigen bibliographischen Angaben der Werke sind hier zu finden.

Das Teilkorpus der Ergänzungen beinhaltet bisher Europarl v7, ein Korpus, das die Protokolle des Europäischen Parlaments von 1996 bis 2011 enthält. Segmente über 80 Wörter (auf Spanisch bzw. Deutsch) wurden ausgeschlossen. Insgesamt enthält das Teilkorpus über 70 Millionen Textwörter. In naher Zukunft werden neue Sammlungen zweisprachiger Texte unterschiedlicher Herkunft hinzukommen.

Auch wenn der ursprüngliche Anstoß zur Erstellung von PaGeS aus dem Bereich der kontrastiven linguistischen Forschung kam, hat uns die sehr gute Aufnahme bei ganz unterschiedlichen Nutzern dazu veranlasst, Anstrengungen in Bezug auf die Benutzerfreundlichkeit und Standardisierung zu unternehmen, um das Korpus zu einer multifunktionalen Ressource zu machen, die den Anforderungen sehr unterschiedlicher Nutzergruppen gerecht wird. Unser Ziel ist es, eine verlässliche Sprachressource für Deutsch und Spanisch zu schaffen, die für viele Zwecke geeignet ist. Dazu gehören allgemeine Untersuchungen in den Bereichen der kontrastiven Linguistik, der linguistischen Typologie, der Übersetzungswissenschaft und der bilingualen Lexikographie sowie die Nutzung als Datenquelle für maschinelle Übersetzungssysteme. PaGeS hat sich auch als ein sehr nützliches und weit verbreitetes Tool für ÜbersetzerInnen und Deutsch- oder Spanischlernende auf mittlerem bis fortgeschrittenem Niveau erwiesen, um eine Vielzahl von Übersetzungsvorschlägen zu erhalten, die von Menschen gemacht wurden und in Anwendungsbeispielen aufgezeigt werden.

Ausführliche Informationen zu PaGeS finden Sie auf der Seite Publikationen.

Trotz unserer Bemühungen haben sich sicherlich einige Fehler eingeschlichen. Wenn Sie sie finden, lassen Sie es uns bitte wissen, indem Sie eine E-Mail an corpuspages@usc.es schicken. Bitte geben Sie dabei stets die ID-Nummer des betreffenden Belegs an.

Hinweis:

Wenn Sie PaGeS in Ihrer Arbeit verwenden, geben Sie es bitte als Quelle an und benachrichtigen Sie uns: corpuspages@usc.es. Damit unterstützen Sie den Fortbestand des Projekts.

Statistiken PaGeS

Kernkorpus

SPRACHE ZEICHEN TEXTWÖRTER TOKENS TYPES BISEGMENTE WERKE
Deutsch Original 34.020.927 6.280.994 7.402.194 188.540 461.768 81
Spanisch Übersetzung 32.520.223 6.781.481 7.823.016 109.921
Spanisch Original 33.403.052 7.010.327 8.026.021 119.501 442.623 70
Deutsch Übersetzung 37.212.971 6.924.157 8.114.878 162.972
Deutsch Übersetzung < 3. Sprache 11.247.605 2.084.860 2.464.909 74.244 151.294 18
Spanisch Übersetzung < 3. Sprache 10.337.022 2.149.204 2.483.199 57.389
Gesamt 158.741.830 31.267.205 36.314.217 1.055.685 169


Ergänzungen: Europarl v7

SPRACHE ZEICHEN TEXTWÖRTER TOKENS BISEGMENTE
Deutsch 219.099.293 35.222.373 39.726.336 1.586.374
Spanisch 205.008.875 39.664.923 43.662.223
Total 424.108.168 74.887.296 83.388.559 1.586.374


(Stand: 01/05/2020)

                                                              
PaGeS Vers. 2.0
Letztes Update: 20.05.2020
ISSN 2605-5228 ©SpatiAlEs
Creative Commons Licencia Creative Commons
Universität Santiago de Compostela
Dieses Projekt wird von der Nationalen Forschungsagentur (AEI) des Spanischen Ministeriums für Wissenschaft, Innovation und Universitäten (FFI2017-85938-R) sowie von der Galizischen Landesregierung (2017-PG023) gefördert.