Linguistische Korpora und Datensammlungen

DWDS: Referenz-, Zeitungs- und Spezialkorpora

Autor/Herausgeber: Geyken, Alexander
Veröffentlicht durch: Berlin-Brandenburgische Akademie der Wissenschaften (BBAW), Berlin
Publikationsdatum:
Zuletzt bearbeitet: 14.03.2019
Gefördert von der Deutschen Forschungsgemeinschaft hat das Projekt DWDS von 2000 bis 2003 eine große Textbasis erstellt. Hierbei entstand das DWDS-Kernkorpus, das erste zeitlich und nach Textsorten ausgewogene Textkorpus der deutschen Sprache des 20. Jahrhunderts. Seitdem wurden eine Reihe weiterer Korpora in die DWDS-Abfrageplattform eingebunden.

Emergence of Advertising in America: 1850 - 1920 (EAA)

Autor/Herausgeber:
Veröffentlicht durch: Duke University Libraries/Duke University, Durham, NC
Publikationsdatum:
Zuletzt bearbeitet: 11.08.2015
Digitales Archiv mit über 9.000 amerikanischen Werbeanzeigen aus den Jahren 1850 bis 1920 sowie einer Bibliographie zur Geschichte der amerikanischen Werbung.

European Corpus Initiative Multilingual Corpus I (ECI/MCI)

Autor/Herausgeber: Krauwer, Steven
Veröffentlicht durch: European Networks of Excellence in Human Language Technologies (ELSNET)
Publikationsdatum: 11.05.2012
Zuletzt bearbeitet: 18.06.2014
Das ECI-Korpus (CD-ROM) ist ein multilinguales Textkorpus, das rund 98 Millionen Wörter umfasst. Es sind europäische (Deutsch, Englisch, Schwedisch, Italienisch etc.) und nicht-europäische Sprachen (Albanisch, Japanisch, Russisch)

European Language Resources Association (ELRA)

Autor/Herausgeber:
Veröffentlicht durch: European Language Resources Association (ELRA), Paris
Publikationsdatum: 2008
Zuletzt bearbeitet: 17.08.2014
Korpussammlungen vornehmlich geschriebener Texte.

European Parliament Proceedings Parallel Corpus (EUROPARL)

Autor/Herausgeber: Koehn, Philipp
Veröffentlicht durch:
Publikationsdatum: 15.05.2012
Zuletzt bearbeitet: 25.04.2014
Das EUROPARL-Korpus wurde als Datenquelle für die statistische maschinelle Übersetzung entwickelt. Es wurde aus den Veröffentlichungen des Europäischen Parlaments erzeugt und steht in 21 Sprachen zur Verfügung.