An Crúbadán - Corpus Building for Minority Languages

URL An Crúbadán - Corpus Building for Minority Languages
Autor / Herausgeber Scannell, Kevin P.

Beschreibung der Ressource

Das Forschungsprojekt "An Crúbadán" von Kevin P. Scannell (Department of Mathematics and Computer Science, Saint Louis University) verfolgt das Ziel, u. a. durch Webcrawling und anhand statistischer Sprachdaten automatisiert Korpora seltener erforschter Sprachen zu erstellen. Ursprünglich als Projekt für die keltischen Sprachen gestartet, wurden inzwischen Daten zu mehr als 2.000 Sprachen der Welt gesammelt und auf der Seite "Downloads" übersichtlich mit BCP-47- und ISO-639-3-Code sowie dem Land, in dem die Sprache gesprochen wird, präsentiert. Zu den einzelnen Sprachen ist jeweils angegeben, welche Textmenge (Anzahl der Text und Wörter) gecrawlt wurde. Außerdem werden Links zu weiterführenden Informationen zur Sprache und zu ihrem Schriftsystem angeboten (z. B. Links zu Ethnologue, Glottolog, zu OLAC-Ressourcen und zum UNESCO Atlas of the World's Languages in Danger). Weitere Verweise finden sich unter dem Menüpunkt "Applications"; hier werden weitere Projekte, die Schnittstellen zu "An Crúbadán" haben, vorgestellt. Weiterführende Informationen zum Projekt können Sie dem verlinkten Aufsatz "The Crúbadán Project: Corpus building for under-resourced languages" entnehmen.
Autor/in dieses Eintrags MW

Format application/pdf application/zip text/html
Publikationssprache Englisch
Ressourcentyp Forschungsprojekte Korpora/Forschungsdaten Linklisten
Zugang freier Zugriff
Land USA
Stichwort N-Gramm
Stichwort Englisch n-gram
Schlagwörter Orthographie, Natürliche Sprachverarbeitung/Natural Language Processing (NLP), Sprachstatistik, Schriftsystem
Thematische Klassifikation Computerlinguistik Korpuslinguistik Textlinguistik/Schriftsprache
Datum der Aufnahme in die LinseLinks 28.05.2015
Zuletzt bearbeitet 28.11.2016; JBA

Zurück