SrpKor4Tagging – Корпус је формиран комбинацијом књижевних (⅓) и административних (⅔) текстова на српском језику. Обележен је са два скупа ознака за врсте речи: Universal POS и SrpLemKor (скуп креиран на основу традиционалне, дескриптивне граматике српског језика) и лематован.
Скуп садржи 342,803 токена, лиценца је CC-BY-4.0. Више детаља у раду: https://aclanthology.org/2020.lrec-1.487/ Цитирати:
Ranka Stankovic, Branislava Šandrih, Cvetana Krstev, Miloš Utvić, and Mihailo Skoric. 2020. Machine Learning and Deep Neural Network-Based Lemmatization and Morphosyntactic Tagging for Serbian. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 3954–3962, Marseille, France. European Language Resources Association.