1887

n Literator : Journal of Literary Criticism, Comparative Linguistics and Literary Studies - Outomatiese lemma-identifisering vir Afrikaans

USD

 

Abstract


Automatic lemmatisation is a general normalisation procedure in text processing, where all inflected forms of a lexical word are normalised to a single lemma (i.e. a meaningful, uninflected base form from which more complex word forms could be formed). Traditionally, lemmatisers are developed by writing language-specific rules to identify lemmas. In this article an alternative approach is investigated, namely a machine learning approach, to develop a lemmatiser for Afrikaans (LIA: "Lemma-identifiseerder vir Afrikaans"). An overview regarding the process of inflection in Afrikaans is provided with the aim of identifying the categories of inflection that are relevant for lemmatisation in Afrikaans. The format of the input and output is described with special reference to the nine inflectional categories for Afrikaans that the system should be able to handle. Then the task of lemmatisation as a classification task for machine learning is described, and a concise introduction to memory-based learning is provided. The development and evaluation of LIA is discussed in detail, and it is illustrated how the performance of the initial classifier is improved through feature selection and parameter optimisation. The best classifier reaches an accuracy of 92,8%. The article concludes with a view on some future work.

Outomatiese lemma-identifisering ("lemmatisation") is 'n algemene normaliseringsprosedure in teksprosessering, waardeur alle geïnflekteerde vorme van 'n leksikale woord herlei word na die lemma (d.i. daardie betekenisvolle, ongeïnflekteerde basisvorm waaruit meer komplekse woordvorme gevorm kan word). Tradisioneel word lemma-identifiseerders gegrond op taalspesifieke reëls waarvolgens lemmas geïdentifiseer word. In hierdie artikel word 'n alternatiewe benadering, te wete 'n masjienleerbenadering, ondersoek om 'n lemma-identifiseerder vir Afrikaans (LIA) te ontwikkel. 'n Oorsig oor die aangeleenthede rondom fleksievorming in Afrikaans word verskaf met die doel om die fleksiekategorieë wat relevant is vir lemma-identifisering in Afrikaans te identifiseer. Hoe die toevoer- en afvoerdata van LIA daar moet uitsien, word omskryf met spesifieke verwysing na die fleksiekategorieë wat deur die sisteem hanteer moet word. Daarna word die taak van lemma-identifisering omskryf as 'n klassifiseringstaak in masjienleer en 'n bondige inleiding tot geheuegebaseerde leer word gegee. Die ontwikkeling en evaluering van LIA word vervolgens in detail bespreek en toon aan hoe die prestasie van die aanvanklike lemma-identifiseerder verbeter word deur middel van eienskapseleksie en parameteroptimalisering. Die beste klassifiseerder behaal 'n akkuraatheidsyfer van 92,8%. Die artikel sluit af met 'n vooruitskouing op toekomswerk.

Loading

Article metrics loading...

/content/literat/29/1/EJC62006
2008-04-01
2016-12-08
This is a required field
Please enter a valid email address
Approval was a Success
Invalid data
An Error Occurred
Approval was partially successful, following selected items could not be processed due to error