n Lexikos - Divergent approaches to corpus processing : the need for standardisation




This article discusses some problems encountered in the processing of the Shona corpus. Most of the problems deal with the handling of adoptives, punctuation and individuals' idiolects. It also discusses the problem ensuing from an attempt to standardise the formats used in the handling of the corpus. The way a corpus is processed is critical in determining its quality. This article aims to show how the different linguistic backgrounds of the processors affect the appreciation of some vital aspects of the corpus. One of the acclaimed advantages of a corpus is that it allows research to be done on natural language. An ideal corpus should be a body of texts combined in a principled way to become a reliable language bank from which researchers retrieve data for various research purposes. With a good corpus, data can be provided giving an authoritative body of linguistic evidence which can support generalisations and against which hypotheses can be tested. As this proves the invaluable status of a corpus, the article assesses the processing of the Shona corpus and discusses how some aspects of the processing may impact negatively on its quality.

Hierdie artikel bespreek 'n aantal probleme wat teëgekom is by die verwerking van die Sjonakorpus. Die meeste van die probleme handel oor die hantering van leenwoorde, punktuasie en die idiolekte van individue. Dit bespreek ook die probleem wat voortvloei uit 'n poging om die formate gebruik vir die hantering van 'n korpus te standaardiseer. Die manier waarop 'n korpus verwerk word, is krities vir die bepaling van sy gehalte. Hierdie artikel wil toon hoe die verskillende taalkundige agtergronde van die verwerkers die beoordeling van sommige van die wesenlike aspekte van die korpus beïnvloed. Een van die geloofde voordele van 'n korpus is dat dit toelaat dat navorsing oor die natuurlike taal gedoen word. 'n Ideale korpus behoort 'n geheel van tekste te wees wat op 'n geordende manier saamgestel is om 'n betroubare taalbank te wees waaruit navorsers inligting vir verskillende navorsingsdoeleindes kan verkry. Met 'n goeie korpus kan gegewens verskaf word om 'n betroubare geheel van taalkundige bewyse te gee wat veralgemenings kan bevestig en waarteen hipotesisse getoets kan word. Deurdat dit die waardevolle status van 'n korpus bewys, beoordeel die artikel die verwerking van die Sjonakorpus en bespreek hoe sommige aspekte van die verwerking die gehalte negatief mag beïnvloed.


Article metrics loading...

This is a required field
Please enter a valid email address
Approval was a Success
Invalid data
An Error Occurred
Approval was partially successful, following selected items could not be processed due to error