Siehe unten für die deutsche Version.
Corpus, Dataset
Dominik Schlechtweg, Haim Dubossarsky, Simon Hengchen, Barbara McGillivray, Nina Tahmasebi
This data collection contains the English test data for SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection:
corpus1/lemma/
, corpus2/lemma/
)targets.txt
)truth/
)Corpus 1 (lemma version)
Corpus 2 (lemma version)
Besides the official lemma version of the corpora for SemEval-2020 Task 1 we also provide the raw token version (corpus1/token/
, corpus2/token/
). It contains the raw sentences in the same order as in the lemma version. Find more information on the data and SemEval-2020 Task 1 in the paper referenced below.
The creation of the data was supported by the CRETA center and the CLARIN-D grant funded by the German Ministry for Education and Research (BMBF).
Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi. 2020. SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection. SemEval@COLING2020.
Reem Alatrash, Dominik Schlechtweg, Jonas Kuhn, and Sabine Schulte im Walde. 2020. CCOHA: Clean Corpus of Historical American English. In Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC’20). European Language Resources Association (ELRA).
Mark Davies. 2012. Expanding Horizons in Historical Linguistics with the 400-Million Word Corpus of Historical American English. Corpora, 7(2):121–157.
The resources are freely available for education, research and other non-commercial purposes.
Korpus, Datensatz
Dominik Schlechtweg, Haim Dubossarsky, Simon Hengchen, Barbara McGillivray, Nina Tahmasebi
Diese Datensammlung enthält die Testdaten für SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection:
corpus1/lemma/
, corpus2/lemma/
)targets.txt
)truth/
)Korpus 1 (Lemma-Version)
Korpus 2 (Lemma-Version)
Neben der offiziellen Lemma-Version der Korpora für SemEval-2020 Task 1, stellen wir auch die unverarbeitete Token-Version zur Verfügung (corpus1/token/
, corpus2/token/
). Sie enthält die unverarbeiteten Sätze in derselben Reihenfolge wie in der Lemma-Version. Weitere Informationen zu den Daten und zu SemEval-2020 Task 1 finden Sie in dem unten zitierten Papier.
Die Erstellung der Daten wurde unterstützt durch das CRETA-Zentrum und das CLARIN-D-Projekt gefördert durch das Bundesministerium für Bildung und Forschung (BMBF).
Dominik Schlechtweg, Barbara McGillivray, Simon Hengchen, Haim Dubossarsky and Nina Tahmasebi. 2020. SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection. SemEval@COLING2020.
Reem Alatrash, Dominik Schlechtweg, Jonas Kuhn, and Sabine Schulte im Walde. 2020. CCOHA: Clean Corpus of Historical American English. In Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC’20). European Language Resources Association (ELRA).
Mark Davies. 2012. Expanding Horizons in Historical Linguistics with the 400-Million Word Corpus of Historical American English. Corpora, 7(2):121–157.
Die Ressourcen sind frei verfügbar für Lehre, Forschung sowie andere nicht-kommerzielle Zwecke.