WaCky - The Web-As-Corpus Kool Yinitiative

URL WaCky - The Web-As-Corpus Kool Yinitiative
Autor / Herausgeber
Mitarbeiter Baroni, Marco/Bernardini, Silvia/Ferraresi, Adriano/Zanchetta, Eros
Veröffentlicht durch Scuola Superiore di Lingue Moderne per Interpreti e Traduttori (SSLMIT), Forlì/Università di Bologna (UNIBO)

Beschreibung der Ressource

In der Initiative WaCky haben sich Linguisten und IT-Experten aus unterschiedlichen Ländern (u. a. Italien, USA, UK und Deutschland) zusammengeschlossen, um Tools zu entwickeln, mit denen man Daten aus dem Internet extrahieren und als Textkorpus nutzen kann. Außerdem wurden bereits mehrere große Korpora zu folgenden Sprachen erstellt und veröffentlicht: Englisch (PukWaC, ukWaC und WaCkypedia_EN), Französisch (frWaC), Deutsch (deWaC sowie sdewac) und Italienisch (itWaC sowie Italian Wikipedia).
Die Korpora sind größtenteils getaggt, lemmatisiert und mit weiteren, je nach Korpus unterschiedlichen linguistischen Annotationen versehen. Ferner stehen hier Lemma- und Häufigkeitslisten zu den Korpora, Tools, Publikationen und Literaturhinweise für das interessierte Fachpublikum zum Herunterladen bereit.
Autor/in dieses Eintrags MW

Format application/pdf application/zip text/html
Publikationssprache Englisch
Ressourcentyp Bibliografien Dokumentenserver/Repositorys Korpora/Forschungsdaten Software/Tools
Zugang freier Zugriff ~ CC BY-NC-SA 3.0
Land Italien
Stichwort Annotation (Metadaten)
Stichwort Englisch annotation (meta data)
Schlagwörter einsprachiges Korpus, Textkorpus, Parsing, Dependenzgrammatik, Part-of-speech Tagging, Lemmatisierung, Stuttgart-Tübingen Tagset (STTS), Annotation (Syntax), Annotation (Semantik), Häufigkeit, Internet
Thematische Klassifikation Korpuslinguistik Medienlinguistik
Sprache Englisch, Französisch, Deutsch, Italienisch
Datum der Aufnahme in die LinseLinks 25.08.2014
Zuletzt bearbeitet 25.08.2014; MW

Zurück