umu.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Predicting User Competence from Linguistic Data
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap. (FLP)
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap. (FLP, LPCN)ORCID-id: 0000-0002-4696-9787
2017 (Engelska)Ingår i: Proceedings of the 14th International Conference on Natural Language Processing (ICON-2017) / [ed] Sivaji Bandyopadhyay, Jadavpur University , 2017, s. 476-484Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

We investigate the problem of predicting the competence of users of the crowd-sourcing platform Zooniverse by analyzing their chat texts. Zooniverse is an online platform where objects of different types are displayed to volunteer users to classify. Our research focuses on the Zoonivers Galaxy Zoo project, where users classify the images of galaxies and discuss their classifications in text. We apply natural language processing methods to extract linguistic features including syntactic categories, bag-of-words, and punctuation marks. We trained three supervised machine-learning classifiers on the resulting dataset: k-nearest neighbors, decision trees (with gradient boosting) and naive Bayes. They are evaluated (regarding accuracy and F-measure) with two different but related domain datasets. The performance of the classifiers varies across the feature set configurations designed during the training phase. A challenging part of this research is to compute the competence of the users without ground truth data available. We implemented a tool that estimates the proficiency of users and annotates their text with computed competence. Our evaluation results show that the trained classifier models give results that are significantly better than chance and can be deployed for other crowd-sourcing projects as well. 

Ort, förlag, år, upplaga, sidor
Jadavpur University , 2017. s. 476-484
Nationell ämneskategori
Språkteknologi (språkvetenskaplig databehandling)
Identifikatorer
URN: urn:nbn:se:umu:diva-146185OAI: oai:DiVA.org:umu-146185DiVA, id: diva2:1194456
Konferens
14th International Conference on Natural Language Processing (ICON-2017)
Tillgänglig från: 2018-04-03 Skapad: 2018-04-03 Senast uppdaterad: 2018-06-09Bibliografiskt granskad
Ingår i avhandling
1.
Posten kunde inte hittas. Det kan bero på att posten inte längre är tillgänglig eller att du har råkat ange ett felaktigt id i adressfältet.

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

URL

Personposter BETA

Woldemariam, Yonas DemekeBensch, SunaBjörklund, Henrik

Sök vidare i DiVA

Av författaren/redaktören
Woldemariam, Yonas DemekeBensch, SunaBjörklund, Henrik
Av organisationen
Institutionen för datavetenskap
Språkteknologi (språkvetenskaplig databehandling)

Sök vidare utanför DiVA

GoogleGoogle Scholar

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 289 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf