Paper - Hogeschool Gent

Geassocieerde faculteit 

Toegepaste Ingenieurswetenschappen 

Valentin Vaerwyckweg 1, 9000 Gent 

Academiejaar 2011–2012 

Sentimentdetectie op Sociale Netwerksites 

Sander Van den Broecke 

Promotoren en begeleiders: 

Prof. Dr. Ir. F. De Turck (IBCN-IBBT) 

Dr. T. Wauters (IBCN-IBBT) 

P. Leroux (IBCN-IBBT) 

J. Deleu (IBCN-IBBT) 

J. Roelandts (Massive//Media) 

Dr. H. Naessens (Hogeschool Gent) 

Masterproef voorgedragen tot het behalen van het diploma van 

MASTER IN DE INDUSTRIËLE WETENSCHAPPEN: INFORMATICA

De auteur en promotoren geven de toelating deze scriptie voor consultatie beschikbaar te 

stellen en delen ervan te kopiëren voor persoonlijk gebruik. Elk ander gebruik valt onder 

de beperkingen van het auteursrecht, in het bijzonder met betrekking tot de verplichting 

uitdrukkelijk de bron te vermelden bij het aanhalen van resultaten uit deze scriptie. 

The author and promoters give the permission to use this thesis for consultation and to 

copy parts of it for personal use. Every other use is subject to the copyright laws, more 

specifically the source must be extensively specified when using from this thesis. 

Gent, Juni 2012 

De promotor en begeleiders De auteur 

Prof. Dr. Ir. Filip De Turck Sander Van den Broecke 

Dr. Tim Wauters 

Philip Leroux 

Johannes Deleu 

Joost Roelandts 

Dr. Helga Naessens

Sentimentdetectie op Sociale Netwerksites 

Detectie van seksueel misbruik in Netlog-data

Woord vooraf 

Langs deze weg had ik graag een woord van dank gericht aan al de mensen die mij zowel 

rechtstreeks als onrechtstreeks gesteund hebben bij de realisatie van mijn eindwerk. 

In de eerste plaats wil ik Massive//Media bedanken voor het mogelijk maken van deze 

thesis. In het bijzonder wil ik mijn promotor dhr. Joost Roelandts bedanken voor zijn 

visie en voor het nalezen van mijn paper. 

Een woord van dank gaat ook uit naar mijn promotoren bij het IBCN. Ik bedank 

dhr. Philip Leroux voor zijn organisatorische inbreng en het nalezen van mijn paper. Wens 

ik ook dhr. Johannes Deleu the bedanken voor zijn vele geduld wanneer ik nog maar eens 

met een eigen versie van een algoritme kwam aanzetten. 

Daarnaast wil ik ook mevr. Helga Naessens, mijn interne promotor bedanken. Zij was 

altijd enthousiast tijdens het opvolgen van mijn werk. 

Tot slot bedank ik mijn vriendin Hannelore Vens op wie ik steeds kon rekenen en bedank 

ik mijn ouders voor hun onvoorwaardelijke steun gedurende mijn hele opleiding. 

iii

Abstract 

Deze scriptie gaat over het detecteren van seksueel misbruik op sociale netwerken met be- 

hulp van tekstuele data. Om te beginnen worden in een theoretisch stuk de verschillende 

onderdelen van het detectieproces naar voor gebracht. Er worden drie feature selectors 

en drie text classifiers uitvoerig belicht. Hierbij werd gesteund op werken van Pang & 

Lee (2008) en Manning et al. (2008). Vooraleer ingegaan wordt op de resultaten worden 

ook de oorsprong en de inhoud van de testdata uitgelegd waarna ook nog enkele bijzon- 

derheden aan de implementatie naar voor worden gebracht. Het resultaatgedeelte van 

deze scriptie geeft een stapsgewijze verklaring voor de verschillende keuzes die er gemaakt 

werden om tot een oplossing te komen voor het detectieprobleem. Het voorlaatste stuk 

van de resultaten behandelt enkele pogingen om de resultaten nog verder te verbeteren 

door het probleem van een onevenwichtige dataset aan te pakken. Hiermee wordt in het 

classificatieproces een precision en een recall van boven de 90% gerealiseerd. Het resultaat- 

hoofdstuk wordt afgesloten met nog enkele vaststellingen uit de tijdens de verbeteringsfase 

uitgevoerde clustering die kunnen dienen als basis voor verder onderzoek. 

iv

Abstract 

This thesis deals with the detection of sexual abuse on social networks using textual data. 

Starting with a theoretical piece the various components of the detection process are 

brought forward. Three feature selectors and three text classifiers are examined in de- 

tail. This was supported by work of Pang & Lee (2008) and Manning et al. (2008). Before 

outlining the results, the origin and contents of the test data are explained, followed by 

some details of the implementation. The results section of this thesis gives a step by step 

explanation of the different choices that were made to reach a solution to the detection 

problem. The middle section of the results discusses some attempts to further improve the 

results by addressing the problem of an imbalanced dataset. Using these improvements 

during the classification process pushed the precision and the recall above 90%. The result 

chapter concludes with some findings from the clustering that was performed during the 

improvement phase. These findings can serve as a basis for further research. 

v

Inhoudsopgave 

1 Introductie 1 

2 Theoretische achtergrond 3 

2.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

2.2 Feature selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2.2.1 Document Frequency . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2.2.2 Collection Frequency . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2.2.3 Mutual information . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2.2.4 Featurebewerkingen . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

2.2.5 Andere methodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.3 Text classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.3.1 Multinomial Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.3.2 Binomial Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 12 

2.3.3 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . 14 


2.4 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.4.1 Ruimte voor verbetering . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.4.2 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 


3 Data 24 

3.1 Oorsprong en eigenschappen . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

3.2 Vereiste data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

3.2.1 Positieve documenten . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

3.2.2 Negatieve documenten . . . . . . . . . . . . . . . . . . . . . . . . . 27 

3.2.3 Realistische test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 

vi

Inhoudsopgave vii 

4 Implementatie 30 

4.1 Java . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

4.2 MySQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 

5 Resultaten 34 

5.1 Feature selector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 

5.2 Text classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 

5.3 Featurebewerkingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 

5.4 Optimalisatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 

5.5 Clustering extra’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 

6 Conclusie 55 

Bibliografie 57 

Bijlage A Woordenlijsten 61 

A.1 Nederlandse stopwoorden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

A.2 Engelse stopwoorden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

A.3 Beperkte featurelijst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 

Bijlage B Resultaattabellen 66 

B.1 Initiële testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 

B.2 Multinomiaal naieve Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 

B.3 Binomiaal naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 

B.4 Support vector machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 

Bijlage C Figuren 74 

C.1 Feature selectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 

C.2 Featurebewerkingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

Bijlage D Afkortingen 81

Hoofdstuk 1 

Introductie 

Tijdens deze scriptie werd samengewerkt met Massive//Media, eigenaar van de site Netlog. 

Netlog is een online community waar iedereen zijn sociale netwerk kan onderhouden of 

uitbreiden. Op Netlog maak je een profielpagina met een blog, foto’s, video’s, evenementen, 

afspeellijsten en nog veel meer, en deel je die met je vrienden. Netlog wordt ontwikkeld door 

Massive Media NV, gevestigd in Gent, België. Netlog staat voor enkele indrukwekkende 

cijfers zoals meer dan 96 miljoen leden en een verspreiding in meer dan 40 talen (Netlog 

(2012)). 

Online sociale netwerksites beschikken over zeer veel informatie van gebruikers. Al deze 

gegevens zijn een samengaan van verschillende informatiebronnen waaronder het invullen 

van een profielpagina, het plaatsen van reacties, het schrijven van blogberichten, ... In 

deze grote hoeveelheid teksten wordt naast waardevolle inhoud helaas ook misbruik (cy- 

berpesten, spam, etc.) en vragen naar hulp (over zelfdoding, depressie, studieproblemen, 

etc.) teruggevonden. Momenteel worden deze zaken hoofdzakelijk manueel gecontroleerd 

door de moderatoren van de netwerksites, wat gezien de grote hoeveelheid data, voor een 

bepaalde vertraging zorgt in het bestrijden van misbruik of het bieden van hulp. 

Het doel van deze thesis is het vinden van een praktische werkwijze om berichten te analy- 

seren. Er wordt gezocht naar methodieken om het sentiment in berichten van personen op 

een sociaal netwerk te detecteren. In deze thesis wordt de term “sentiment” ingevuld met 

“seksueel misbruik”. Er wordt dus niet zo zeer bepaald of een persoon goed of slecht gezind 

is, maar of er personen zijn die ongepast seksueel gedrag uiten. De concrete invulling van 

de thesis kan dus geformuleerd worden als het automatiseren van de detectie van seksueel 

misbruik. Automatisering betekent dat gevallen van misbruik sneller kunnen aangepakt 

worden om zo de kwaliteit van het sociaal netwerk nog verder te verhogen. 

1

Hoofdstuk 1. Introductie 2 

Voor de methodieken wordt gekeken naar lerende system (Manning et al. (2008)). Wanneer 

er nieuwe tekstdocumenten met misbruik op de website geplaatst worden, moet het systeem 

in staat zijn om zich aan te passen. De nieuwe, nog niet eerder behandelde documenten, 

kunnen daarbij woorden bevatten die nog niet eerder voorkwamen in misbruikberichten. 

Het systeem moet leren om de juiste nieuwe woorden een negatief of positief karakter toe 

te wijzen. 

Lerende systemen kunnen opgedeeld worden in twee grote categoriën. Er zijn de supervi- 

sed learning systemen en de unsupervised learning systemen. Deze laatste zal zelf criteria 

bepalen om documenten op te delen in verschillende groepen. De kans dat dit de gewenste 

scheiding tussen wel en geen seksueel misbruik oplevert, is zeer klein. Er moet dus be- 

roep gedaan worden op een supervised learning systeem. Dit soort systemen maakt een 

scheiding op basis van voorbeelden van de gewenste scheiding. Het aanleveren van docu- 

menten die reeds gelabeld zijn volgens wel en niet aanvaardbare inhoud moet uiteindelijk 

een systeem geven dat zelfstandig, zonder de labels, een onderscheid kan maken tussen 

de verschillende soorten documenten. Deze soorten documenten worden verder aange- 

duid als klassen. Hierbij is de positieve klasse de klasse die positief test voor seksueel 

misbruik. De manueel gelabelde voorbeelddocumenten wordt de trainingsdata of de trai- 

ningsset genoemd. Om het systeem te testen, wordt een deel van de gelabelde documenten 

achtergehouden. Door deze achtergehouden gelabelde documenten voor te schotelen aan 

het getrainde systeem kan getest worden of de training succesvol was. De achtergehouden 

documenten worden dan ook vanaf nu de testset genoemd. 

Sentimentdetectie kan ook aangewend worden voor de classificering van reviews (scheiding 

van positieve en negatieve commentaar op een product), de detectie van spamberichten, 

het aggregeren van reviews met een verschillende beoordelingsschaal, het detecteren van 

gemeenschappen die er eenzelfde mening op na houden, het samenvatten van teksten in ver- 

schillende kernzinnen, enz. De bijdrage die sentimentdetectie kan leveren bij commerciële 

bedrijven mag dus niet onderschat worden. Veel informatie rond de gebruikte methodieken 

kan dan ook in artikels met deze onderwerpen teruggevonden worden (Tang et al. (2009), 

Barbosa & Feng (2010), Jindal & Liu (2008)).

Hoofdstuk 2 

Theoretische achtergrond 

2.1 Inleiding 

Het verwezenlijken van een lerend systeem voor tekstclassificatie vergt twee grote com- 

ponenten. Elke component heeft verschillende parameters. Het meest optimale resultaat 

wordt bereikt wanneer elke component geoptimaliseerd is met de best mogelijke parame- 

ters. 

Een eerste component selecteert de termen in een document. Om te beginnen dient het 

begrip ‘term’ zo goed mogelijk beschreven te worden. Op welke tekens worden documenten 

gesplitst, wat gebeurt er met cijfers, enzovoort. Hoewel dit op het eerste zicht een eenvou- 

dige taak lijkt, zijn er enkele concrete problemen die moeten aangepakt worden. Hierbij 

mag niet nagelaten worden te vermelden dat deze problemen taalspecifiek zijn. Daar de 

verstrekte data hoofdzakelijk in het Nederlands is, worden de problemen zo veel moge- 

lijk verduidelijkt met Nederlandse voorbeelden. Meer hierover is terug te vinden in het 

hoofdstuk rond featurebewerkingen (hoofdstuk 2.2.4, p. 6). Daarna moet bepaald worden 

welke van die termen gebruikt worden om het document te klasseren. Dit is de taak van 

de feature selector. 

De tweede grote component is de text classifier zelf. Deze gebruikt de woorden die geselec- 

teerd werden door de feature selector om te bepalen in welke klasse een document wordt 

ingedeeld. 

In deze studie worden drie text classifiers geëvalueerd, telkens in combinatie met een feature 

selector. De text classifiers zijn multinomial naive Bayes (hoofdstuk 2.3.1, p. 10), binomial 

naive Bayes (hoofdstuk 2.3.2, p. 12) en support vector machines (hoofdstuk 2.3.3, p. 14). 

3

Hoofdstuk 2. Theoretische achtergrond 4 

Voor de feature selector werd afgewisseld tussen document frequency (hoofdstuk 2.2.1, p. 4), 

collection frequency (hoofdstuk 2.2.2, p. 5) en mutual information (hoofdstuk 2.2.3, p. 5). 

2.2 Feature selection 

De volgende paragrafen geven een antwoord op de vragen “Hoe wordt bepaald welke woor- 

den een document definiëren?” en “Welke bewerkingen kunnen uitgevoerd worden op de 

termen om de feature selectie en daarmee de classifier te verbeteren?” Het basisalgoritme 

(Manning et al. (2008)) om de k beste features voor een klasse c uit een groep documenten 

D te selecteren is: 

Algoritme 1 Selectie beste features per klasse 

function SelecteerFeatures(D, c, k) 

V ← ExtractheerW oordenschat(D) 

L ← [] 

for each t ∈ V do 

A(t, c) ← BerekenBruikbaarheid(D, t, c) 

V oegT oe(L, 〈t, A(t, c)〉) 

return W oordenMetGrootsteW aarde(L, k) 

De volgende punten geven de verschillende werkwijzen die gebruikt werden voor de bere- 

kening van de waarde A(t, c). 

2.2.1 Document Frequency 

Deze techniek steunt zoals de naam aangeeft op frequenties. De frequenties die hier gebuikt 

worden, zijn documentfrequenties. Een frequentiegetal geeft dus aan in hoeveel documen- 

ten een woord voorkomt. Vooral bij grote aantallen features zou document frequency (DF) 

goed moeten presteren (Manning et al. (2008)). Er zijn echter flink wat woorden, met 

name stopwoorden (zie verder p. 9), die vaak tot heel vaak voorkomen zonder bij te dragen 

aan het classificatieproces. Een typisch voorbeeld van stopwoorden zijn lidwoorden. Voor 

de rest vraagt DF geen complexe berekeningen en is het noodzakelijke geheugen beperkt 

tot een frequentietabel. 

Om de selectie te kiezen werd, volgens algoritme 1, per label de gevraagde hoeveelheid 

features met de hoogste frequenties behouden. Dit wil zeggen dat als een text classifier 

getraind wordt met 500 features, dan elke klasse gedefinieerd wordt door 500 features.


2.2.2 Collection Frequency 

Deze vorm van feature selectie werkt eveneens met frequenties. Collection frequentie (CF) 

houdt bij hoe vaak een woord voorkomt in alle documenten samen. 

Net als bij DF zijn de berekeningen eenvoudig en beperkt het geheugengebruik zich tot 

een frequentietabel. 

2.2.3 Mutual information 

Deze laatste feature selection techniek is de meest complexe van de drie beschouwde tech- 

nieken. Mutual information (MI) meet hoeveel informatie het al dan niet voorkomen van 

een term bijdraagt aan het maken van een correcte classificatie. 

I(U, C) = 

 

et∈{1,0} ec∈{1,0} 

P (U = et, C = ec) log 2 

P (U = et, C = ec) 

P (U = et)P (C = ec) 

(2.1) 

Hierbij is U een random variabele die de waarden et = 1 (het document bevat term t) en 

et = 0 (het document bevat term t niet) kan aannemen. C is een random variabele die de 

waarden ec = 1 (het document zit in klasse c) en ec = 0 (het document zit niet in klasse c) 

kan aannemen. Ut en Cc worden gebruikt wanneer niet uit de context kan afgeleid worden 

over welke term t en welke klasse c het gaat. 

Bovenstaande formule is equivalent met de volgende: 

I(U, C) = N11 

N log 2 

+ N10 

N log 2 

N N11 

N1. N.1 

N N10 

N1. N.0 

+ N01 

N log 2 

+ N00 

N log 2 

N N01 

N0. N.1 

N N00 

N0. N.0 

(2.2) 

Hierin staan de verschillende termen N voor het aantal documenten die de waarden et 

en ec bevatten die worden aangeduid door de subscripts. Zo staat N10 voor het aantal 

documenten die term t (et = 1) bevatten en niet tot de klasse c (ec = 0) behoren. De 

termen N met een punt in de index zijn minder beperkend. Voorbeeld: N1. = N10 + N11 is 

het aantal documenten die term t (et = 1) bevatten onafhankelijk van de aanwezigheid van 

term t. De minst beperkende term N (zonder subscript) is het totaal aantal documenten 

en is dus gelijk aan N00 + N01 + N10 + N11. Het invullen van de waarden voor U en C zoals 

hieronder toont het verband met formule (2.1). 

P (U = 1, C = 1) = N11 

N 

(2.3)


Mutual information meet hoeveel informatie (in de informatietheoretische zin) een term 

bevat over een klasse. Als de verspreiding van een woord binnen een bepaalde klasse 

dezelfde is als de verspreiding over alle klassen, dan is de berekende waarde gelijk aan nul. 

De maximale waarde wordt bereikt wanneer de term een perfecte indicator is voor een 

klasse, indien een term dus enkel in één bepaalde klasse voorkomt. 

2.2.4 Featurebewerkingen 

Voorafgaande bewerkingen 

De allereerste bewerkingen die er gebeuren op de tekstdocumenten bestaan uit het instellen 

van de delimiters, het wegwerken van hoofdletters en het verwijderen van diakritische 

tekens en cijfers. 

De delimiters zijn de tekens die gebruikt worden om een document op te splitsen in ver- 

schillende woorden. De gebruikte programmeertaal (Java) laat toe om alle delimiters te 

definiëren in een enkele string-variabele. 

In de praktijk blijkt het echter onbegonnen werk om alle exotische ASCII-tekens die voor- 

komen in de dataset op te nemen in de delimiterstring. De initiële aanpak werd daarom 

gewijzigd naar het verwijderen van al wat geen letter uit het alphabet is. 

Een twijfelgeval voor het verwijderen, is het afbreekstreepje (-). Volgens Kraaij & Pohl- 

mann (1994) worden, voor de Nederlandse taal, de beste resultaten verkregen door noch 

op het afbreekstreepje te splitsen, noch het afbreekstreepje te behouden, maar door het 

te verwijderen. Zoals in onderstaand voorbeeld worden alle afbreekstreepjes dus gewoon 

weggegooid. Het vervangen van de streepjes zou leiden tot het splitsen van woorden. 

vb: doe-het-zelf-zaak → doehetzelfzaak 

Het wegwerken van hoofdletters spreekt voor zich. Alle hoofdletters worden vervangen 

door hun kleine letter. 

vb: VaN iEdEr MeNs Is Dr Ma 1 DuS k BeN uNiEk 

→ van ieder mens is dr ma 1 dus k ben uniek


Het weglaten van cijfers is een vereenvoudiging. Om bijvoorbeeld ‘w8’ op te nemen in de 

frequentiebel als een equivalent van ‘wacht’ zou een vervanging van vele cijfers nodig zijn. 

Vele, niet alle, want bijvoorbeeld voetbaluitslagen zouden dan niet mogen omgezet worden. 

Het verwijderen van diakritische tekens komt neer op het verwijderen van accenten, trema’s, 

tildes en konsoorten. De letters worden evenwel behouden. 

Stemming 

vb: ç → c é → e ë → e ^e → e ~n → n 

Stemming is het proces waarbij woorden afgekapt worden om ze tot eenzelfde stamvorm te 

herleiden. Er wordt een rudimentaire poging ondernomen om afleidingen en vervoegingen 

weg te werken en de woordenschat in de testset te reduceren. Een kleinere woordenschat 

betekent dat in geheugenkritische systemen meer features kunnen opgeslagen worden. 

Stemming kan ook omschreven worden als een afgezwakte vorm van lemmatizering. Deze 

laatste heeft eveneens als doel om de woordenschat te verkleinen door woorden terug te 

voeren tot hun stam, maar gaat evenwel anders te werk. Lemmatizering steunt voor het 

herleiden van woorden op een taalkundige analyse. Een taalkundige analyse kan bovendien 

verder gaan dan enkel een woord reduceren tot zijn stam. Er kan ook een link gelegd worden 

tussen woorden die hetzelfde voorwerp aanduiden, maar weinig letters gemeenschappelijk 

hebben. Een voorbeeld is auto en wagen. 

Een morfologische analyse is echter niet het onderwerp van dit werkstuk en is dan ook niet 

geëvalueerd. Afgezien van de beschikbare tijd, waren noch de kennis, noch de bronnen 

daarvoor aanwezig. Maar men kan aannemen dat, indien rekenkracht en uitvoeringstijd 

geen punt zijn, lemmatizering de resultaten wellicht nog meer kan verbeteren in verhouding 

tot stemming. Of deze verbetering de moeite is, is zoals gezegd niet uitgewerkt. 

Wanneer het om de Engelse taal gaat, is reeds lang een algoritme beschikbaar dat goede 

resultaten haalt. Dit algoritme, genoemd naar zijn uitvinder, is gekend als Porter’s Al- 

gorithm. Onze data bestaat echter voornamelijk uit Nederlandstalige tekst. De beperkte 

Engelstalige content bestaat voor het overgrote deel uit songteksten. Het toepassen van 

Porter’s Algorithm op onze data zou van weinig nut zijn daar stemmingsalgoritmen per 

definitie taalspecifiek zijn. 

Een oplossing werd gevonden in de paper van Kraaij & Pohlmann (1994) getiteld “Porter’s 

Algorithm for Dutch”. Hierbij wordt gesteund op de bevindingen van Kraaij & Pohlmann


(1994) om het afbreekstreepje niet te behouden als karakter en evenmin om woorden op 

die plaats te splitsen. In plaats daarvan worden afbreekstreepjes gewoon verwijderd. De 

Nederlandstalige variant van Porter’s Algorithm bestaat uit zes regelclusters. Deze regel- 

clusters hebben als doel... 

... morfologische verbuigingen zo veel mogelijk te omvatten. 

... enkel de affixen (omvat prefixen, infixen en suffixen) te verwijderen die niet zorgen 

voor een groot verlies aan informatie. 

...de meest frequente affixen te behandelen. 

De regelclusters worden gedefinieerd met behulp van enkele extra voorwaarden en/of func- 

ties. Deze functies zijn aangeduid in het regeloverzicht met behulp van afkortingen: 

M: maat, staat voor het aantal groepen van klinker(s)-medeklinker(s) die een woord 

bevat. Zo is de maat van het woord thesis gelijk aan 2 en van twee gelijk aan 0. 

De maat kan een voorwaarde zijn voor het uitvoeren van de regel. 

EM: eindigt op medeklinker. Ga door met het verwijderen van klinkers tot je bij een 

medeklinker komt. 

VK: verdubbel klinker, na het verwijderen van bepaalde suffixen kan het nodig zijn 

om de stamklinker te verdubbelen. Voorbeelden: rode → rood, lopen → loop, ... 

Bij het toepassen van de regels, uit tabel 2.1 (p. 9), dient de volgorde behouden te wor- 

den. De eerste cluster (regels 1 en 2) gaat over morfologische verbuiging van zelfstandige 

naamwoorden, adjectieven en werkwoorden. De tweede cluster (regels 3 en 4) behandelt 

verkleinwoorden. De derde cluster (regels 5 en 6) behandelt verbuigingen tot zelfstandige 

naamwoorden. De vierde cluster (regels 7 en 8) gaat over verbuigingen tot adjectieven. 

De vijfde cluster (regels 9 en 10) behandelt het affix ‘ge’ dat zowel voorkomt als suffix als 

infix. De zesde en laatste cluster (regels 11 en 12) zijn enkele regels die het resultaat van 

de vorige regels vervolmaken. Het ∅-teken betekent dat het affix dient te worden verwij- 

derd. In verdere grafieken en tabellen wordt het toepassen van stemming aangeduid met 

de letters ‘st’.


1 en → ∅ M > 0 EK VK (-en, meervouden) 

2 e → ∅ M > 0 EK VK (-e, adjectieven) 

3 etj → ∅ EK VK (-etje, de eind-‘e’ werd al behandeld) 

4 tj → ∅ (-e, zelfde opmerking als hierboven) 

5 heid → ∅ M > 0 VK (-heid) 

6 ing → ∅ M > 0 (-ing) 

7 baar → ∅ M > 0 VK (-baar) 

8 ig → ∅ M > 0 (-ig) 

9 ge- → ∅ M > 0 (ge-) 

10 -ge- → ∅ (-ge-) 

11 v → f (-v → -f) 

12 pp → p (-pp → -p) 

Stopwoorden 

Tabel 2.1: Een Nederlandse versie van Porter’s Algorithm 

Om de definiëring van de klassen te verbeteren, kan het nuttig zijn om zeer frequente 

woorden niet op te nemen in de berekeningen. De hoge frequenties zorgen voor grote 

getallen bij de berekeningen en bovendien dragen de termen niet bij tot definiëring van 

een klasse. Manning et al. (2008) beschrijft de algemene trend in informatievergarende 

systemen, gaande van het gebruik van lange lijsten (200-300 termen) naar zeer kleine stop- 

woordlijsten (7-12 termen) naar helemaal geen stopwoordfiltering. Ook stopwoorden zijn, 

net als stemmingregels, zeer taalspecifiek. De stopwoordlijst die gebruikt werd voor de eer- 

ste metingen bestond uit 48 termen (1ste Keuze BV (2012)). Omdat deze stopwoordenlijst 

niet volstond voor de testen rond clustering is vanaf dan overgegaan op een langere lijst 

van 104 Nederlandse woorden (van Holten (2008)). Het opnemen van een Engelse stop- 

woordenlijst met 174 termen bleek eveneens een nuttige aanvulling. De stopwoordlijsten 

zijn opgenomen in de bijlages A.1 en A.2 (p. 61, 62). In verdere grafieken en tabellen wordt 

het filteren van stopwoorden aangeduid met de letters ‘sw’. 

Combinatie van stemming en stopwoorden 

Een combinatie van stemming en stopwoorden ligt voor de hand, maar levert daarom niet 

altijd betere resultaten op. Bij het evalueren van de verschillende text classifiers is de 

invloed van stemming en stopwoorden zowel apart als gecombineerd geëvalueerd.


2.2.5 Andere methodes 

Document frequency, collection frequency en mutual information zijn slechts enkele metho- 

des voor het selecteren van features. Andere methoden zijn: 

χ 2 (chi square, Manning et al. (2008)) 

Beslissingsbomen (Grabczewski & Jankowski (2005)) 

2.3 Text classifier 

Zoals reeds eerder aangehaald werd, is de text classifier de module van het totaalsysteem 

die de beslissing neemt tot welke klasse een document behoort. Deze scriptie belicht drie 

text classifiers: twee vormen van naive Bayes en support vector machines. 

Alle behandelde classifiers zijn toepassingen van supervised learning. Er wordt dus gebruik 

gemaakt van een trainingset om een nieuw document te klasseren. Het testen van een 

supervised learning algoritme gebeurt door een deel van de gelabelde documenten achter 

te houden bij het trainen. Deze documenten worden dan in de testfase aangewend om de 

classificatie te beoordelen. De parameters voor de beoordeling zijn aan het begin van dit 

hoofdstuk reeds besproken. 

2.3.1 Multinomial Naive Bayes 

Naive Bayes is een statistische classifier. Dit betekent dat er gesteund wordt op kans- 

berekening en waarschijnlijkheden om te bepalen in welke categorie een document wordt 

ingedeeld. Wanneer een woord vaak voorkomt in een document van een bepaalde klasse 

in de trainingsset, dan is het waarschijnlijk dat een nieuw document uit de testset dat 

hetzelfde woord bevat ook tot die bepaalde klasse behoort. 

De kans dat een document d tot een klasse c behoort, wordt berekent als volgt: 

P (c|d) ∝ P (c) 

1≤k≤nd 

P (tk|c) (2.4) 

Hierbij is P (tk|c) de voorwaardelijke kans dat een term tk voorkomt in een document van 

klasse c. Uit vergelijking 2.4 volgt dat P (c|d) evenredig is met (∝) het product van de 

voorwaardelijke kansen voor alle termen uit het document d vermenigvuldigd met de kans


P (c). Deze laatste geeft aan wat de waarschijnlijkheid is waarmee een document voorkomt 

in klasse c. P (c) is op voorhand natuurlijk niet gekend en wordt geschat uit de trainingsset. 

Bij classificatie wordt op zoek gegaan naar de klasse uit de klassenverzameling C die het 

beste past bij het te klasseren document. Voor deze klasse cbest is de waarschijnlijkheid 

maximaal. 

cbest = max 

c∈C 

= max 

c∈C 

ˆP (c|d) (2.5) 

ˆP (c) 

ˆP (tk|c) (2.6) 

1≤k≤nd 

Er staat ˆ P om aan te duiden dat de echte waarde van P (c) en P (tk|c) niet gekend zijn, 

maar geschat worden uit de trainingsset zoals verderop aangegeven. 

In vergelijking (2.6) worden veel probabiliteiten vermenigvuldigd. Dit kan leiden tot een 

underflow bij de berekeningen. Deze vermenigvuldiging wordt daarom vervangen door een 

optelling van de logaritmen van de probabiliteiten. De klasse met de hoogste logaritmische 

probabiliteit is nog steeds de meest waarschijnlijke, immers: log(xy) = log(x) + log(y) en 

de logaritmische functie is monotoon stijgend. Dit geeft: 

cbest = max 

c∈C 

 

log ˆ P (c) + 

1≤k≤nd 

log ˆ P (tk|c) 

 

(2.7) 

Hoe gaat nu het schatten van de parameters ˆ P (c) en ˆ P (tk|c) in zijn werk? Voor de schatting 

kunnen volgende formules (opgesteld als Maximum Likelihood Estimate, zie (Manning et al., 

2008)) gebruikt worden: 

ˆP (c) = Nc 

N 

ˆP (t|c) = 

Tct 

 

t ′ ∈V 

Tct ′ 

(2.8) 

(2.9) 

Hierbij is Nc het aantal documenten in klasse c en N nog steeds het totaal aantal docu- 

menten. Tct is het aantal keer dat term t voorkomt in klasse c waarbij het meervoudig 

voorkomen van een woord binnen één document meegeteld wordt. De noemer uit vergelij- 

king (2.9) is de som van de frequenties van alle woorden binnen de klasse c. ˆ P (t|c) is dus 

hetzelfde als de relatieve frequentie van term t in documenten behorende tot klasse c.


Het probleem met een schatting als Maximum Likelihood Estimate is dat ze de waarde 0 

krijgt wanneer een term-klasse combinatie niet voorkomt in de trainingsset. In vergelij- 

king (2.6) worden alle probabiliteiten vermenigvuldigd. Een probabiliteit van 0 kan dus 

ongewild de ganse vermenigvuldiging reduceren tot nul. Dit probleem kan niet opgelost 

worden met enkele voorwaarden omdat de trainingsdata nooit groot genoeg is om zeld- 

zame term-klasse combinaties goed te representeren. De oplossing ligt in het toepassen 

van Laplace smoothing, die eenvoudig 1 optelt bij elk aantal. Alle woorden krijgen dus een 

uniforme initiële verdeling over alle klassen. Elk woord krijgt een startfrequentie 1 in elk 

document en deze frequentie wordt aangepast naarmate de trainingsdata verwerkt wordt. 

ˆP (t|c) = 

= 

Tct + 1 

 

t ′ ∈V 

Tct ′ + 1 

Tct + 1 

( 

t ′ (2.11) 

∈V 

Tct ′) + B′ 

Hierbij is B ′ = |V | het aantal woorden in de woordenschat V . 

(2.10) 

Multinomial is de term die gebruikt wordt om aan te duiden dat er bij het berekenen van de 

waarschijnlijkheden rekening gehouden wordt met de frequentie dat een woord voorkomt 

in een document. Dit in tegenstelling tot een binomial naive Bayes classifier waar enkel 

gewerkt wordt met de aanwezigheid van woorden. 

Algoritme 2 (p. 13) is de pseudocode (Manning et al. (2008)) die aan de basis ligt van de 

gebruikte implementatie. 

2.3.2 Binomial Naive Bayes 

Deze classifier is eveneens een naive Bayes classifier. In plaats van een multinomial model 

heeft deze binomial naive bayes classifier een Bernoulli model. Dit Bernoulli model houdt 

enkel rekening met de aanwezigheid van woorden waar het multinomiale model rekening 

houdt met de frequenties van woorden. Wanneer een testdocument geklasseerd wordt, ge- 

bruikt de classifier enkel de binaire aanwezigheidsinformatie. Als gevolg hiervan maakt het 

Binomiale model typisch veel fouten bij het classificeren van lange documenten (Manning 

et al., 2008). Echt lange documenten zijn in onze dataset eerder uitzonderlijk. 

Het Bernoulli model -ook wel binomial model genoemd- impliceert dat de probabiliteiten 

nu anders berekend worden en ook de classificatieregels verschillen met het multinomial 

model. De term P (t|c) staat nu voor het aantal documenten van klasse c die term t bevat.


Algoritme 2 Multinomiaal naive Bayes 

1: function TrainMultinomiaal(C, D) 

2: V ← ExtractheerW oordenschat(D) 

3: N ← T elAantalDocumenten(D) 

4: for each c ∈ C do 

5: Nc ← T elAantalDocumentenInKlasse(D, c) 

6: prior[c] ← Nc/N 

7: tekstc ← ConcateneerAlleDocumentenInKlasse(D, c) 

8: for each t ∈ V do 

9: Tct ← T elAantalT okensV anT erm(textc, t) 


11: voorw kans[t][c] ← Tct+1 

t ′ Tct ′+1 

12: return V, prior, voorw kans 

13: 

14: function DoeMNB(C, V, prior, voorw kans, d) 

15: W ← ExtraheerW oordenschat(V, d) 


17: score[c] ← log prior[c] 

18: for each t ∈ W do 

19: score[c]+ = log voorw kans[t][c] 

20: return maxc∈C score[c]


Een aanpassing van algoritme 2 (p. 13) levert algoritme 3 (p. 14). 

Algoritme 3 Bernoulli naive Bayes 

1: function TrainBernoulli(C, D) 

2: V ← ExtractheerW oordenschat(D) 

3: N ← T elAantalDocumenten(D) 


5: Nc ← T elAantalDocumentenInKlasse(D, c) 

6: prior[c] ← Nc/N 

7: tekstc ← ConcateneerAlleDocumentenInKlasse(D, c) 


9: Nct ← T elAantalDocumentInKlasseDieT ermBevat(D, c, t) 

10: voor kans[t][c] ← (Nct + 1)/(Nc + 2) 

11: return V, prior, voorw kans 

12: 

13: function DoeBNB(C, V, prior, voorw kans, d) 

14: vd ← ExtraheerW oordenschat(V, d) 


16: score[c] ← log prior[c] 

17: for each t ∈ Vd do 

18: if t ∈ Vd then 

19: score[c]+ = log voorw kans[t][c] 

20: else 

21: score[c]+ = log 1 − voorw kans[t][c] 

22: return maxc∈C score[c] 

2.3.3 Support Vector Machines 

Deze classifier verschilt met de twee vorige text classifiers in het feit dat het een geo- 

metrische classifier is. Naive Bayes text classifiers steunen op waarschijnlijkheden, waar 

deze classifier steunt op vectoren. Elk document wordt omgezet naar een vector. Vertrek- 

kende vanuit de oorsprong van de vectorruimte duidt elke vector een punt aan. Een zeer 

eenvoudig voorbeeld dat makkelijk te visualiseren valt, is volgend document: 

alfa beta alfa beta beta


Dit document kan uitgezet worden in de tweedimensionale “alfa beta”-ruimte als de vector 

v1 = (2, 3), zie figuur 2.1. Hierin zijn de coörinaten respectievelijk de frequenties van de 

woorden alfa en beta. 

beta 

3 

2 

1 

0 

(2,3) 

1 2 3 4 

Figuur 2.1: De vectorrepresentatie v1 van het voorbeeld. 

Omdat een document natuurlijk meer dan twee verschillende woorden kan bevatten, zijn 

de vectoren niet tweedimensionaal maar multidimensionaal. Er zijn evenveel dimensies als 

er verschillende woorden in de volledige dataset staan. 

De vectoren kunnen op verschillende manier gerepresenteerd worden. De eerste manier 

kwam reeds aan bod als (2, 3). Wanneer het aantal woorden toeneemt, wordt deze re- 

presentatie erg lang en bevat ze bovendien veel nullen. De grote overdaad aan nullen 

kan weggewerkt worden door over te gaan op ijle vectoren. Bij ijle vectoren bestaan de 

coördinaten uit een ID van de dimensie en de waarde. Omdat de waarden vergezeld zijn 

van een ID is het niet meer nodig om alle ID’s op te nemen en kunnen de nulwaarden 

weggelaten worden. Een uitbreiding van het vorige voorbeeld naar een collectie met vijf 

documenten levert het overzicht in tabel 2.2 (p. 16). 

Merk op dat hier gekozen werd voor letters als ID’s van de coördinaten. Voor de praktische 

implementatie werden woorden niet afgebeeld op letters maar op getallen. 

Uit Manning et al. (2008) kan geleerd worden dat classificatie in vectorruimten beter pres- 

teert wanneer gewerkt wordt met genormaliseerde TF*IDF vectoren (zie volgende alinea) 

in plaats van vectoren met frequenties. In een normaliseerde vector wordt de waarde in 

elke dimensie gedeeld door de lengte van de vector. De nieuw bekomen vector heeft dan 

alfa


document (1) (2) (3) 

alfa beta alfa beta beta (2, 3, 0, 0, 0) a:2 b:3 g:0 d:0 r:0 a:2 b:3 

alfa gamma beta gamma (1, 1, 3, 0, 0) a:1 b:1 g:3 d:0 r:0 a:1 b:1 g:3 

delta rho (0, 0, 0, 1, 1) a:0 b:0 g:0 d:1 r:1 d:1 r:1 

gamma beta rho (0, 1, 1, 0, 0) a:0 b:1 g:1 d:0 r:1 b:1 g:1 r:1 

beta beta (0, 2, 0, 0, 0) a:0 b:0 g:0 d:0 r:0 b:2 

(1) = normale vector 

(2) = vector met ID’s 

(3) = ijle vector met ID’s 

Tabel 2.2: Voorbeelden van documentvectornotaties. 

een lengte gelijk aan 1 en wordt daarom ook een eenheidsvector genoemd. Hieronder staat 

de berekening van de normalisatie van v1 (de vector horende bij het eerste document uit 

het voorbeeld). De genormaliseerde vector wordt voorgesteld als v1 ′ . 

v1 ′ = v1 

v1 = 

1 

√ 

22 + 32 × v1 = 1 

 

2 

√ × v1 = √13 , 

13 3 

 

√ , 0, 0, 0 

13 

(2.12) 

TF*IDF-waarden van woorden in een document zijn producten van de frequentie van het 

woord in het document (TF, Term Frequency) en de inverse documentfrequentie (IDF, 

Inverse Document Frequency). Deze laatste wordt berekend als de logaritme van het aantal 

documenten in de collectie gedeeld door het aantal documenten in de collectie die het woord 

bevatten. Dit alles samen geeft: 

T F ∗ IDF = T F × log N 

DF 

Terug toegepast op het eerste document uit de voorbeeldcollectie geeft dit: 

woord N TF DF TF*IDF 

alfa 5 2 2 2 × log 5 

2 

beta 5 3 4 3 × log 5 

4 

De genormaliseerde TF*IDF-vector voor het eerste voorbeelddocument wordt daarmee: 

v1 ′ = 

1 

 

(2 × log 5 

2 )2 + (3 × log 5 

4 )2 

× (2 × log 5 

2 

(2.13) 

5 

, 3 × log , 0, 0, 0) (2.14) 

4 

= (0.9393, 0.3431, 0, 0, 0) (2.15)


Wanneer elk document uitgezet is in de vectorruimte met behulp van zijn genormaliseerde 

TF*IDF vector poogt de SVM classifier om een hypervlak te vinden in de multidimensionale 

vectorruimte die de vectoren van de positieve en de negatieve documenten zo goed mogelijk 

scheidt. Dit hypervlak -ook wel beslissingsvlak- genoemd, is optimaal wanneer het zo ver 

mogelijk verwijderd is van de data. Dit betekent dat de positie van het hypervlak -en 

daarmee de beslissingsfunctie van de classifier- volledig gedefinieerd is door een klein aantal 

vectoren uit de dataset. Deze vectoren worden de steunvectoren genoemd en verklaren de 

naam van de classifier. De afstand van het hypervlak tot de steunvectoren noemt men de 

marge. 

Een eenvoudige dataset met twee dimensies geeft een classificatieprobleem zoals in onder- 

staande figuur. 

Marge 

Hypervlak 

Steunvectoren 

Figuur 2.2: Een tweedimensionaal classificatieprobleem met SVM oplossing.



Voor de volledigheid worden nog enkele andere classifiers uit de literatuur vermeld. Wie 

nog meer classifiers wil bekijken, kan alvast volgende termen eens opzoeken: 

Minimum Cuts (Pang & Lee (2004)) 

Maximum Entropy (Zhu et al. (2005)) 

k-Nearest Neighbour (kNN, Manning et al. (2008)) 

Decision Trees (Kohavi (1996)) 

2.4 Clustering 

Net als classificatie verdeelt clustering data in verschillende groepen. Het grote verschil 

tussen de twee is dat classificatie een vorm is van ongesuperviseerd leren (unsupervised 

learning) terwijl clustering een vorm is van gesuperviseerd leren (supervised learning). In 

de inleiding is reeds verklaard dat de eerste vorm mikt op een opdeling zoals aangetoond 

met voorbeelden onder de vorm van trainingsdata. De tweede vorm, die in dit hoofdstuk 

behandeld wordt, steunt niet op voorbeelden. 

In de inleiding werd ook reeds aangehaald waarom ongesuperviseerde systemen niet ge- 

schikt zijn voor de beoogde classificatie. De kans dat een ongesuperviseerd leeralgoritme 

vanzelf de opdeling zal maken tussen documenten met en zonder seksueel misbruik is zeer 

onwaarschijnlijk. Een gesuperviseerd leeralgoritme is dus zeker hetgeen nodig is voor deze 

taak. Er is echter een manier waarop clustering kan bijdragen tot classificatie. Deze manier 

wordt verderop in dit hoofdstuk besproken. 

Clusterarlgoritmes kunnen op verschillende manieren onderverdeeld worden. Een eerste 

opdeling is vlakke (flat clustering) en hiërarchische clustering (hierachical clustering). En- 

kel hiërarchische clustering toont relaties tussen clusters. Een tweede opdeling is harde 

(hard clustering) en zachte clustering (soft clustering). Bij harde clustering kan een docu- 

ment slecht tot één enkele cluster behoren, dit in tegenstelling tot zachte clustering waar 

een eenzelfde document in meerdere clusters kan voorkomen. Volgens deze opdelingen is de 

hier besproken K-means clustering (hoofdstuk 2.4.2, p. 19) een vlakke en harde clustering.


2.4.1 Ruimte voor verbetering 

Hoewel de resultaten van de classifier goed zijn (zie tabel 5.3, p. 46), is er nog ruimte 

voor verbetering. De documenten van de realistische test worden dan misschien nergens 

gebruikt om de classifier te trainen, de testset wordt wel gebruikt voor het afregelen van 

de featurebewerkingen en het bepalen van de feature- en documentverhouding. Wanneer 

de classifier met de “optimale parameters” wordt losgelaten op een volledig nieuw sample 

uit de database, duiken de resultaten terug omlaag. Dit fenomeen waarbij het algoritme 

teveel afgestemd wordt op een beperkte dataset noemt men overtraining. Het algoritme 

wordt te zeer geoptimaliseerd voor de testset en is niet robuust genoeg om bij elk database 

sample goede resultaten te geven. Dit om aan te geven dat er zeker nog ruimte is voor 

verdere verbetering. 

Eén mogelijke verbetering is om de realistische testset, die nu een kleine 2000 documenten 

bevat, nog verder uit te breiden. Op die manier zou de realistische testset een nog beter 

beeld vormen van de volledige database. Het logische gevolg is dat de afregeling van de 

parameters meer zou afgestemd zijn op de volledige database en nieuwe samples beter 

verwerkt zouden worden. Het nadeel van deze methode is dat het sterk uitbreiden van de 

realistische testset veel tijd vraagt. 

Een andere mogelijkheid is het verbeteren van het classificiatieproces door het toevoegen 

van een extra feature. Wanneer aan elk document een onderwerp wordt toegekend, kan 

dit meegegeven worden aan de text classifier als een extra feature. Wanneer de classifier 

detecteert dat documenten over een bepaald onderwerp gevoelig zijn voor seksueel misbruik 

kan hij leren om de documenten bij dit onderwerp gevoeliger te beoordelen. Het toekennen 

van een onderwerp aan elk document kan gebeuren op een ongesuperviseerde manier met 

bijvoorbeeld K-means clustering. Deze vorm van clustering wordt toegelicht in Manning 

et al. (2008) en is een wijd verspreid algoritme dankzij zijn eenvoud en efficiëntie. 

2.4.2 K-means 

Bij de constructie van het algoritme wordt een objectieffunctie gedefinieerd. De objec- 

tieffunctie is een maat voor de kwaliteit van de clustering. Tijdens de uitvoering van 

het algoritme wordt gepoogd om de objectieffunctie te minimaliseren. De objectieffunctie 

voor het K-means algoritme wordt bepaald op basis van de afstand tussen de verschillende 

data-elementen. In een tweedimensionaal vlak kan deze afstand gedefinieerd worden als 

de Euclidische afstand tussen twee punten. Zo wordt de afstand tussen twee datapunten


P1(x1, y1) en P2(x2, y2) gegeven door vergelijking (2.16). 

d(P1, P2) = (x1 − x2) 2 + (y1 − y2) 2 (2.16) 

Echter, in hoofdstuk 2.3.3 (p. 14) is reeds eerder besproken dat de hier behandelde dataset 

niet tweedimensionaal maar multidimensionaal is. 

De objectieffunctie die gebruikt wordt in het K-means algoritme is gekend onder de naam 

residual sum of squares (RSS). Om de objectfunctie te kunnen uitleggen, is het nodig van 

te weten wat er bedoeld wordt met het begrip centroid. Per cluster wordt de centroid 

gedefinieerd als het gemiddelde van de clusterelementen. Indien aangenomen wordt dat de 

eenvoudige documenten uit tabel 2.3 tot één cluster ωk behoren, dan wordt de bijhorende 

centroid µk als volgt berekend: 

1. Normaliseer de documentvectoren zoals in hoofdstuk 2.3.3 (p. 14). 

Zie vergelijkingen 2.19 tot en met 2.21. 

2. Neem het gemiddelde van alle vectoren, zie vergelijking 2.22. 

v1 ′ = 

v2 ′ = 

v3 ′ = 

index document vi vi ′ 

1 alfa beta beta (1, 2) (0.447, 0.894) 

2 alfa alfa alfa beta (3, 1) (0.948, 0.316) 

3 alfa alfa (2, 0) (1, 0) 

vi = documentvector (2.17) 

vi ′ = genormaliseerdedocumentvector (2.18) 

Tabel 2.3: Voorbeelddocumenten in de “alfa beta”-ruimte. 

 

1 

1 

√ × (1, 2) = 

12 + 22 √5 , 2 

 

√ = (0.447, 0.894) (2.19) 

5 

 

1 

√10 , 1 

 

√ = (0.948, 0.316) (2.20) 

10 

 

2 

× (2, 0) = √4 , 0 = (1, 0) (2.21) 

 

0.447 + 0.948 + 1 

= 

, 

3 

0.894 + 0.316 + 0 

 

= (0.798, 0.403) (2.22) 

3 

1 

√ × (3, 1) = 

32 + 12 1 

√ 2 2 + 0 2 

µk = v1 ′ + v2 ′ + v3 ′ 

3


Figuur 2.3 is een grafische voorstelling van het uitgewerkte voorbeeld. Merk op dat de 

centroidvector, in tegenstelling tot de documentvectoren, niet genormaliseerd wordt. 

beta 

(0.447,0.894) 

(0.798,0.403) 

(1,2) 

(0.948,0.316) 

(1,0) 

(2,0) 

Figuur 2.3: Grafische voorstelling van het centroidvoorbeeld. 

(3,1) 

Nu het begrip centroid verklaard is, kan RSS uitgelegd worden als de som van de ge- 

kwadrateerde verschillen tussen elke documentvector en de centroid van zijn cluster. In 

formulevorm: 

RSSk = 

|v − µk| 2 

RSS = 

v∈ωk 

K 

RSSk 

k=1 

alfa 

(2.23) 

(2.24) 

Tijdens de uitvoering van het K-means algoritme wordt geprobeerd om deze objectieffunctie 

te minimaliseren. Het algoritme gaat nu als volgt (met regelnummers uit algoritme 4 

(p. 22)): 

1. Bepaald het gewenste aantal clusters K.


2. Selecteer K random documenten als initiële centroids, de seeds (regel 2). 

3. Initialiseer de centroids met de seeds (regel 3). 

4. Verplaats de centroids zolang het stopcriterium niet voldaan is (regel 5). 

Dit houdt in dat: 

(a) Elke cluster geledigd wordt (regel 6). 

(b) Voor elk document de dichtstbijzijnde centroid bepaald wordt (regel 8). 

(c) Voor elke cluster de nieuwe centroid berekend wordt (regel 11). 

Algoritme 4 K-means 

1: function Kmeans(〈v1, ..., vN〉, K) 

2: 〈s1, ..., sK〉 ← SelecteerRandomSeeds(〈v1, ..., vN〉, K) 

3: for k = 1 → K do 

4: µk ← sk 

5: while StopcriteriumNietV oldaan do 

6: for k = 1 → K do 

7: ωk ← {} 

8: for n = 1 → N do 

9: j ← arg minj ′ |µj ′ − vn| 

10: ωj ← ωj 

{vn} 

11: for k = 1 → K do 

12: µk ← 1 

|ωk| v∈ωk v 

13: return 〈ω1, ..., ωK〉 

Voor het stopcriterium zijn verschillende mogelijkheden die hieronder kort worden opge- 

somd. 

Een vast aantal iteraties is voltooid. 

De RSS-waarde valt beneden een opgelegde drempelwaarde. 

De vermindering van de RSS-waarde valt beneden een opgelegde drempelwaarde. 

Het resultaat tussen twee iteraties is niet meer gewijzigd: de documenten veranderen 

niet meer van cluster en de centroids blijven dezelfde.


Tijdens de testen is gebruik gemaakt van de laatst optie als stopcriterium. Dit betekent dat 

voor elke uiteindelijke cluster de objectieffunctie minimaal is. Dit minimum is echter een 

lokaal minimum. Bij een tweede uitvoering van de clustering op dezelfde dataset zullen met 

grote waarschijnlijkheid andere seeds geselecteerd worden, de keuze is immers willekeurig. 

Andere seeds kunnen tot verschillende clusteringen leiden. 

Naast de keuze voor een stopcriterium moet ook de waarde van het gewenste aantal clusters 

K, ook wel de kardinaliteit van de clustering genoemd, bepaald worden. Het uitvoeren van 

deze bepaling van een optimale waarde is echter een NP-probleem (Aloise et al. (2009)). 

Gelukkig zijn enkele heuristieken beschikbaar ((Manning et al., 2008)) om een aanvaardbare 

waarde te vinden. Op deze heuristieken wordt hier niet verder ingegaan. Het beschikbare 

werkgeheugen van de toestellen waarop de testen gedraaid werden, limiteerde immers het 

aantal clusters. 


Zoals aangehaald in de inleiding van het hoofdstuk (p.18) bestaan er naast K-means (een 

vlakke harde clustering) nog verschillende andere vormen van clustering. De verschillende 

vormen die nog aangehaald worden in (Manning et al., 2008) zijn: 

Expectation-Maximization (EM, een vlakke zachte clustering) 

Hierarchical agglomerative clustering (HAC) 

Single-link agglomerative clustering 

Complete-link agglomerative clustering 

Group-average agglomerative clustering 

Centroid similarity agglomerative clustering 

Divisive clustering 

Enkel de eerstgenoemde is geen hiërarchische clustering.

Hoofdstuk 3 

Data 

3.1 Oorsprong en eigenschappen 

De data waarmee gewerkt werd tijdens het evalueren van de verschillende tekstclassificeer- 

ders en technieken is afkomstig van Netlog. Het gaat om openbare data, meer specifiek: 

blogberichten en commentaren hier op. De dataset van Netlog, die geleverd werd in enkele 

SQL-dumps, is goed voor 8.283.641 blogberichten, 12.852.999 blogcommentaren en een 

lijst van 51.994 geblokkeerde gebruikers. Blogberichten en commentaren zijn gelinkt aan 

gebruikers door middel van een ID. Namen en andere persoonlijke data zijn begrijpelijk 

omwille van privacyredenen niet opgenomen in de SQL-dumps. 

Hoewel deze data, met een totaal van 21.136.640 berichten, op het eerste zicht vrij om- 

vangrijk lijkt, dient deze voor het doel van dit onderzoek flink te worden uitgedund. Zo 

bevat de lijst van bijna 52.000 geblokkeerde gebruikers niet enkel profielen die geblokkeerd 

zijn vanwege het posten van seksueel ongepaste inhoud. In totaal zijn zo’n elf verschillende 

types van blokkering gedefinieerd. De twee types die voor ons van toepassing zijn, zijn de 

profielen ‘sexprofiel’ en ‘pedofielprofiel’. Er is echter ook nog het type ‘other’. Aangezien 

de opdeling in verschillende misbruikprofielen niet van in het begin is toegepast, zijn alle 

profielen van voor zekere datum ondergebracht onder ‘other’. De standaardzin eindigend 

op ‘... is een jongerencommunity en geen sekssite!’ als commentaar laat weinig twijfel 

bestaan over de echte reden van blokkering. Omdat het profiel ‘other’ zeker niet alleen 

gevallen van seksueel misbruik aanduidt, is besloten om dit type niet te gebruiken. 

24

Hoofdstuk 3. Data 25 

3.2 Vereiste data 

Uit deze ruime dataset wordt een selectie gemaakt voor het gebruik in supervised learning. 

Concreet betekent dit dat de data die aan het algoritme verstrekt worden, moet gelabeld 

zijn. Er moet dus een indicatie aan een tekstdocument gekoppeld worden die aanduidt of 

het document een geval is van seksueel misbruik. 

Daar de data geleverd werd in een SQL-dump is besloten om verder te werken met data- 

basestructuren en niet met bijvoorbeeld losse tekstbestanden. 

3.2.1 Positieve documenten 

Positieve documenten zijn documenten waar volgens de inhoud een positief antwoord kan 

gegeven worden op de vraag “Is er bij dit document sprake van seksueel misbruik?”. Een 

document bestaat voor blogberichten uit een titel en een corpus. Voor blogcommentaren 

is er enkel een corpus. 

De data bevat nu wel geklasseerde profielen, maar geen geklasseerde documenten die als 

trainingsset kunnen dienen. Daarom moest deze trainingsdata op een andere manier wor- 

den verkregen. Hieronder staan de verschillende technieken en query’s die gebruikt werden 

bij de initiële selectie van positieve data. 

Eerst werden uit de tabel met geblokkeerde gebruikers die gebruikers geselecteerd die ge- 

blokkeerd zijn omwille van seksuele misdragingen, zijnde de types ‘seksprofiel’ en ‘pedofiel- 

profiel’. De kans dat de berichten van deze gebruikers seksuele inhoud bevatten, is relatief 

groot. Dit betekent echter niet dat alle berichten van deze selectie van geblokkeerde gebrui- 

kers zomaar kunnen toegevoegd worden aan de tabel met seksueel misbruik. Een gebruiker 

kan zo bijvoorbeeld 100 berichten hebben waarvan 99 zonder seksueel misbruik, maar ge- 

blokkeerd worden omwille van dat ene bericht dat wel als ongepast geklasseerd wordt. Het 

toevoegen van de 99 toegelaten berichten zou de resultaten van de text classifier flink om- 

laag halen. Als extra criterium werd daarom een selectie gemaakt waarbij de gebruikers 

geblokkeerd zijn omwille van seksuele berichten en die bovendien maar één enkel bericht 

hebben. De kans dat een gebruiker geblokkeerd werd vanwege dit ene bericht is nu vrij 

groot. De data die nu geselecteerd is, wordt selectie Y genoemd. Maar ook nu mag er nog 

niet beslist worden om al deze documenten zonder meer te klasseren als seksueel misbruik. 

Een gebruiker kan geblokkeerd zijn voor seksuele reden en maar één tekstbericht hebben, 

maar 20 seksuele foto’s. Of misschien bestaat dat ene bericht uit enkel een niet toegelaten


filmpje. Beeldmateriaal is geen onderwerp van deze scriptie en wordt niet behandeld. Een 

bericht met enkel video-tags en video-ID’s werd dan ook manueel uit selectie Y gefilterd. 

De redenering is analoog voor berichten met uitsluitend foto-tags en foto-ID’s. Omdat het 

gaat om Nederlandstalige data is een extra manuele filtering uitgevoerd op berichten die 

volledig Engelstalig zijn. Dit zijn voor het overgrote merendeel songteksten. Het filteren 

van selectie Y op berichten met uitsluitend beeldmateriaal, uitsluitend Engelstalige in- 

houd en berichten die helemaal niet seksgerelateerd zijn, leverde selectie X. Onderstaande 

query werd op de twee beschikbare datatabellen (blogs en blogs_comments) uitgevoerd 

goed voor twee selecties X1 van 380 documenten en X2 van 109 documenten. Daarna 

werden de resultaten samengevoegd tot een eindresultaat van 489 documenten. 

SELECT "0" AS id, 

"blog" AS source, 

concat(blogs.title,’ ’,blogs.message) AS message 

FROM ( SELECT userid,type,reason 

FROM blocked_users 

JOIN reason_types ON reason_type=id 

WHERE type IN (’SEX’,’PEDOPHILE’) 

LIMIT 1000 ) AS x 

JOIN blogs ON blogs.userid=x.userid 

GROUP BY x.userid 

HAVING count(1)=1 

INTO outfile ’/tmp/output.csv’ 

FIELDS TERMINATED BY ’,’ 

ENCLOSED BY ’"’ 

LINES TERMINATED BY ’\n’; 

De eerste velden zijn noodzakelijk om de data in de daarvoor aangemaakte databasetabel te 

laden. De limit-clausule laat toe om het resultaat van de query op te delen in verschillende, 

meer overzichtelijke stukken voor revisiea. ook de vier laatste lijnen zijn ter eenvoud van 

revisie en zorgen voor de uitvoer naar een bestand in CSV-formaat. Dit CSV-bestand 

wordt in een laatste stap geconverteerd naar een bestand met MySQL-query’s voor invoer 

in de database. 

Bovenstaande redenering en filtering werd ook uitgevoerd met seksueel geblokkeerde ge- 

bruikers met niet één, maar twee berichten. De having-clausule uit de query wordt daarvoor 

op =2 gezet. De kans op berichten met seksuele inhoud blijft vrij groot. Deze keer werd


na revisie een selectie X3 van 90 documenten bekomen. Dit brengt het totaal op 579 

documenten met seksueel onaanvaardbare inhoud. 

3.2.2 Negatieve documenten 

Aangezien er met enkel positieve gegevens niet kan getraind worden, is er nood aan een 

voldoende grote verzameling negatieve gegevens. Vooral indien de verhouding tussen posi- 

tieve en negatieve data uit de realistische data geëvenaard moet worden, is zelfs een ruime 

set negatieve data nodig. De verhouding en scheefheid in de klassenverdeling, ook wel class 

skew genoemd, wordt later besproken (p 44). Onderstaande MySQL-query werd gebruikt 

voor de selectie van negatieve data: 

SELECT "0" AS id, 

FROM blogs 

"blog" AS source, 

concat(blogs.title,’ ’,blogs.message) AS "message" 

WHERE userid NOT IN ( SELECT userid 

LIMIT 0,500 

FROM blocked_users 

char_length(blogs.message)>50 

INTO OUTFILE ’/tmp/blogs-neg-output.csv’ 

FIELDS TERMINATED BY ’,’ 

ENCLOSED BY ’"’ 

LINES TERMINATED BY ’\n’; 

WHERE reason_type in (0,2,10) ) AND 

De eerste twee kolommen zijn noodzakelijk voor de structuur van de nieuwe tabel waarin de 

negatieve data wordt ondergebracht. Extra eisen voor de opgevraagde documenten zijn dat 

de gebruiker niet mag opgenomen zijn in de lijst met geblokkeerde gebruikers en bovendien 

moeten de documenten ten minste 50 karakters bevatten. Deze laatste eis zorgt ervoor 

dat het aantal mogelijke features per document in de negatieve data omhoog getrokken 

wordt. Deze eis werd niet toegepast bij de positieve documenten omdat de uiteindelijke 

set positieve documenten dan nog verder krimpt. De limit-clausule kan gevarieerd worden 

om blokken van 500 documenten op te vragen. De data in de tabel met negatieve data 

is samengesteld uit het tweemaal uitvoeren van deze query (limit 0,500 en limit 500,500). 

De laatste vier lijnen zijn enkel voor het wegschrijven van de geselecteerde data naar


een CSV-bestand. Na revisie, want ook deze data is manueel gescand, werd dit CSV- 

bestand dan geconverteerd naar een lijst MySQL-insert-query’s. De data die zo overblijft 

als geverifieerde negatieve data bestaat uit 944 documenten. 

Dat ook hier revisie noodzakelijk was, heeft te maken met het feit dat een bericht duidelijk 

ongewenste seksuele inhoud kan bevatten, maar door de mazen van het net geglipt zijn 

bij de manuele detectie van Netlog. Soms is het echter veel subtieler. Zo is er een zeer 

expliciet verhaal rond een verkrachting die net de bedoeling heeft om te shockeren en 

mensen hiervoor te waarschuwen. Wanneer dit verhaal door iemand gepubliceerd wordt 

met de bijhorende waarschuwing en oproep tot verspreiding om het taboe rond verkrachting 

te doorbreken, dan is het verhaal toegestaan. Wie louter het verhaal post op zijn blog 

(zonder de waarschuwingen en antitaboe-oproep) en daarmee enkel de seksuele inhoud 

weergeeft, wordt wel geclassificeerd als seksueel misbruiker. Andere vormen van berichten 

die seksgerelateerde termen bevatten maar geen misbruik zijn, kunnen samengevat worden 

in drie categorieën. Deze categorieën staan hieronder verduidelijkt met een voorbeeldje. 

Humoristische definitie 

Lef = midden in de nacht bezopen thuiskomen met een parfum luchtje om je heen en 

lipstick op je kleding, je vrouw op haar kont slaan en zeggen: “Jij bent de volgende.” 

Seksmop 

Er lopen twee domme blondjes op straat. 

Zegt de een tegen de ander: “Heb jij ook een roze clitoris?” 

Waarop de ander antwoordt: “Weet ik niet, mijn man doet de tuin.” 

Wist je dat... 

WIST JE DAT... 

...de gemiddelde lengte van een piemel (slap) 8,9 cm is? 

...de gemiddelde lengte van een stijve 13,2 - 16,2 cm is? 

...de langste piemel ooit gemeten 33 cm was? 

...de kortste piemel ooit gemeten 1,5 cm is? 

...een man tijdens zijn leven gemiddeld 7200 keer ejaculeert? 

...waarin 2000 keer door masturberen? 

...een man in zijn leven gemiddeld 53 liter sperma de wereld inhelpt? 

...de gemiddelde snelheid van een ejaculatie 45 km/uur is?


3.2.3 Realistische test 

Voor de realistische test werd random data geselecteerd. Het randomizatieproces was het 

volgende: 

1. Bepaal de gewenste grootteorde van de sample. 

2. Bereken de drempelwaarde als verhouding van de gewenste grootte en de grootte van 

de beschikbare data. 

3. Genereer voor elk document een random waarde. 

4. Voeg de documenten met een bijhorende waarde kleiner dan de drempelwaarde toe 

aan de sample. 

In een eerste ronde werden 1008 documenten geselecteerd. De tweede ronde was goed voor 

948 documenten. Voor de query gebruikt bij deze selectie wordt verwezen naar hoofd- 

stuk 4.2 (p. 32). Het resultaat van elke ronde werd manueel doorgenomen en de gevallen 

van seksueel misbruik aangeduid. De eerste en tweede ronde waren goed voor respectieve- 

lijk 25 en 17 positieve documenten. Dit zorgt voor een misbruikverhouding van 42 op 1956 

documenten. Omgerekend betekent dit dat ongeveer 2, 15% van de blogberichten niet door 

de beugel kunnen vanwege ongepaste seksuele inhoud. 

De samples tonen aan dat de hoeveelheid data rond seksueel misbruik relatief klein is 

ten opzichte van alle data. Om de verhoudingen van een realistische dataset beter te 

kunnen benaderen bij het trainen is dus in verhouding veel meer negatieve data nodig. 

Momenteel zijn dat 579 positieve documenten tegenover 944 negatieve documenten. Deze 

aantallen weerspiegelen niet de gewenste verhoudingen. Daarom werden volgens het reeds 

eerder gebruikte sampelingmechanisme nog 14880 random documenten geselecteerd die 

indien nodig kunnen toegevoegd worden aan de hoeveelheid negatieve data. Deze laatste 

14880 documenten werden dus niet manueel overlezen, maar vanuit de steekproeven kan er 

besloten worden dat ook hier de hoeveelheid positieve documenten zeer laag was. Wanneer 

er dus random documenten toegevoegd worden aan de negatieve data kan er vanuit gegaan 

worden dat de negatieve invloed op het trainingsgedeelte van de algoritmes beperkt blijft. 

Het getal 14880 is afkomstig van het algoritme waaraan gevraagd werd 15000 documenten 

te samplen. Dit aantal extra documenten is voldoende groot om al de testen in deze scriptie 

te kunnen uitvoeren.

Hoofdstuk 4 

Implementatie 

In dit hoofdstuk worden kort enkele bijzonderheden besproken die tijdens de implementatie 

van de classifiers en feature selector methodes aan bod kwamen. De gebruikte program- 

meertaal was Java en de data werd geleverd in een SQL-dump. Dit hoofdstuk is dan ook 

zo ingedeeld. 

Voor de evaluatie van de SVM classifier werd de Java implementatie van een bestaande 

bibliotheek gebruikt: liblineair (Waldvogel (2011)). 

4.1 Java 

Gezien het inladen van grote hoeveelheden data, dient er efficiënt te worden omgesprongen 

met het beschikbare geheugen. Met name bij uitvoering van de clustering dienen zoveel 

mogelijk documenten in het geheugen te worden geladen. Onder de vorm van de door 

Netlog geleverde SQL-dump neemt de data 9,89 GB aan ruimte in beslag. De clustering 

werd echter beperkt tot de blogdocumenten, nog steeds goed voor 4,70 GB aan data. De 

beschikbare toestellen voor de testen beschikten allemaal over 4 GB aan RAM-geheugen, 

nog steeds ontoereikend om alle blogdata in het geheugen te laden. Meer data inladen 

dan de capaciteit van het RAM-geheugen en het besturingssysteem periodiek delen laten 

wegschrijven en ophalen van de harde schijf is geen optie wanneer enige performantie 

gewenst is. 

Wanneer alle data gefilterd wordt zoals aangegeven in hoofdstuk 2.2.4 (p. 6) daalt de om- 

vang van de blogdata naar 2,4 GB. Wanneer de volgorde van de woorden in de documenten 

opgeofferd wordt en de woorden vergezeld worden van hun frequentie binnen het document 

is dit nog steeds voldoende informatie en daalt de omvang naar 2,1 GB. 

30

Hoofdstuk 4. Implementatie 31 

Het inladen van 2,1 GB data in de Java virtuele machine (JVM) onder de vorm van Java- 

objecten is echter nog steeds niet mogelijk. Er moet ingecalculeerd worden dat ook het 

besturingssysteem wat RAM-geheugen voor zich neemt en Java-objecten voor zeer veel 

overhead zorgen naar geheugen toe. De data dient dus zoveel mogelijk gereduceerd te 

worden tot primitieve types. In Java zijn dit onder meer de types int, boolean, double 

en float. 

Bij het inladen van de data voor clustering werden daarom de onderstaande structuren 

gebruikt. 

HashMap words 

Hiermee worden woorden gekoppeld aan een integerwaarde als ID. De integerwaarden 

beginnen vanaf 0 en worden per 1 geïncrementeerd. 

String[] words_inv 

Wanneer de documenten dienen te worden uitgeschreven ter controle is een inverse 

koppeling noodzakelijk. Het woord-ID telt hier als index in de array. 

double[] idf 

Elk woord heeft een IDF-waarde. Voor de berekeningen van deze waarde zie hoofd- 

stuk 2.3.3 (p. 14). 

int[][] documents 

In de eerste dimensie staan de verschillende documenten. De tweede dimensie bevat 

de ID’s van de woorden per document. 

double[][] documents_values 

Bij elk woord-ID uit de vorige structuur hoort een genormaliseerde TF*IDF-waarde. 

Voor de berekeningen wordt opnieuw verwezen naar hoofdstuk 2.3.3 (p. 14). 

int[] documents_length 

Deze data hoort bij de eerste dimensie en bevat de lengte van elk document. Dit is 

dus de lengte van de rij woord-ID’s uit de variabele documents. 

int[] documents_id 

De documenten hebben dan wel een numeriek ID, dit getal kan niet gebruikt worden 

als index in de datastructuren omdat dit ID niet sequentieel is. Als de ID’s van 

de documenten moeten uitgeschreven worden bij het resultaat, dan moeten ze ook 

opgeslagen worden.


int[][] centroids 

Deze structuur heeft veel weg van de variabele documents. De inhoud is echter geen 

document maar de centroid van de cluster. In de eerste dimensie staan dus het aantal 

clusters en in de tweede dimensie staat het aantal woorden in de centroidvector. 

double[][] centroids_values 

Analoog aan documents_values hoort bij elk woord-ID een genormaliseerde TF*IDF- 

waarde. 

int[] centroids_length 

Analoog aan documents_length, de lengte van elke centroidvector. 

int[] clusters 

Het uiteindelijke eindresultaat van de clustering. De index legt vast over welk do- 

cument het gaat (het document met het ID horende bij documents_id[index]) en 

de waarde legt vast bij welke cluster het document hoort. Merk op dat hier geen 

variabele centroids_id nodig is, de centroid-ID’s zijn sequentieel. 

4.2 MySQL 

De meest eenvoudige query’s bij het selectieproces voor een realistische testset uit hoofd- 

stuk 3.2.3 (p. 29) zouden de volgende kunnen zijn: 

SELECT message AS document 

FROM blogs 

WHERE id=x 


FROM blogs 

LIMIT y,1 

Bij de linkse query is het probleem echter dat de ID’s bij het genereren van de random 

waardes niet gekend zijn. Het rijnummer daarentegen is wel gekend. Het probleem van 

de rechtse query is performantie. Wanneer y groot wordt, moeten telkens grote aantal- 

len records overgeslagen worden bij elke uitvoering. Daarom werd onderstaande query 

gehanteerd: 


FROM ( SELECT @row:=@row+1 AS rownum, message 

FROM ( SELECT @row:=0 ) r, blogs ) AS ranked 

WHERE rownum IN ( SELECT number 

FROM sample_numbers );


Alle geselecteerde rijnummers zijn weggeschreven naar een tabel sample_numbers. Een 

teller @row wordt geïncrementeerd terwijl de tabel overlopen wordt. Van zodra een rij- 

nummer in de sample_numbers-tabel aanwezig is, wordt het document opgenomen in het 

resultaat van de query. Deze laatste opzoeking gaat snel, er zijn immers maar ongeveer 

1000 records in de sample_numbers-tabel.

Hoofdstuk 5 

Resultaten 

Inleiding 

In dit hoofdstuk wordt een stapsgewijze verklaring gegeven voor de keuze van de beste 

feature selector en de beste text classifier. Daarna wordt bepaald wat de beste featurebe- 

werkingen zijn voor de gekozen combinatie van feature selector en text classifier. 

Vervolgens worden twee vormen van optimalisatie naar voor gebracht. Van elke optima- 

lisatievorm wordt bestudeerd hoe groot de, hopelijk positieve, invloed op de resultaten 

is. 

Merk op dat in dit hoofdstuk enkel de definitieve keuze naar voor gebracht wordt. Omdat 

het niet ondenkbaar is dat een bepaalde combinatie van feature selector en text classifier 

zou kunnen verbeterd worden tot resultaten boven diegene die verkregen werden met de 

eerst gekozen combinatie, zijn alle mogelijk combinaties uitvoerig getest. De resultaten 

van deze tests zijn opgenomen in de bijlagen B.2, B.3 en B.4 (vanaf p. 70). 

34

Hoofdstuk 5. Resultaten 35 

Beoordelingsparameters 

De beoordeling van de uitgewerkte technologieën gebeurt aan de hand van enkele stan- 

daardparameters. Deze zijn respectievelijk de precision (P), de recall (R), de F1 measure 

(F1), de true positive rate (TPR) en de false positive rate (FPR). Om deze begrippen te ver- 

duidelijken, wordt gebruikgemaakt van volgende terminologie, samengevat in onderstaande 

tabel: 

Beoordeling 

Werkelijkheid 

true false 

true true positive (TP) false positive (FP) 

false false negative (FN) true negative (TN) 

Tabel 5.1: Een overzicht van de soorten beoordelingen. 

False positives en false negatives worden ook wel type I en type II fouten genoemd. 

De grootheden voor de beoordelingen worden nu als volgt gedefinieerd: 

T P 

T P +F P 

De fractie van het aantal positief geklasseerde documenten die juist geklasseerd zijn. 

precision = 

T P 

T P +F N 

De fractie van het aantal positive documenten die gevonden zijn. 

recall = 

2×P ×R 

P +R 

Het gewogen gemiddelde van de precision en de recall. 

F1 measure = 

true positive rate = 

T P 

P 

= T P 

T P +F N 

Dit komt overeen met de recall. 

false positive rate = 

F P 

N 

= F P 

F P +T N 

In de tests wordt gestreefd naar een algoritme die een zo goed mogelijke afweging maakt 

tussen precision en recall. De F1 measure moet dus maximaal zijn. Er moet opgemerkt 

worden dat alle concrete cijfergegevens afkomstig zijn uit eigen tests, geoptimaliseerd waar 

mogelijk voor de eigen data.


Een andere manier om de gebruikte methode te evalueren, is door de resultaten uit te 

zetten in een ROC-curve (Receiver Operating Characteristic). ROC-curves zijn afkomstig 

uit de signaaldetectietheorie en werden tijdens WO II ontwikkeld voor de analyse van 

radarbeelden (Tape (2012)). Voor de constructie van de curve bij een binaire classifier 

worden twee operator characteristics, met name de true positive rate en de false positive 

rate, uitgezet op beide assen waarbij de beslissingsdrempel van de classifier als variabele 

genomen wordt. Ter verduidelijking: elke text classifier zet documenten op basis van 

hun inhoud om naar getallen. Bij het trainen wordt aan de hand van deze waarden een 

beslissingsdrempel opgesteld. Alle documenten die bij verwerking een waarde opleveren 

boven de beslissingsdrempel worden in de ene klasse gestopt en alle documenten met een 

waarde onder de beslissingsdrempel komen in de andere klasse terecht. Een ROC-curve 

geeft aan wat er gebeurt wanneer de beslissingsdrempel omhoog en omlaag verschoven 

wordt. De twee extreme situaties zijn deze waarbij respectievelijk geen en alle documenten 

in een bepaalde klasse terecht komen. ROC-curves visualiseren zo de wisselwerking tussen 

true positives (TP) en false postives (FP). Op de X-as van de ROC-curve komt de false 

positive rate en op de Y-as wordt de true positive rate uitgezet. De diagonaal van de 

oorspong naar helemaal rechtsboven (1,1) in de grafiek komt overeen met een random 

classifier. Immers, de diagonale lijn betekent dat er voor elke drempelwaarde evenveel 

kans is dat een document in een bepaalde klasse terecht komt. Dit komt overeen met de 

kansen gegenereerd door een goede random generator, vandaar de term random classifier. 

Figuur 5.1: Een eenvoudige ROC-curve met in stippellijn de random classifier.


Bij de uiteindelijke beoordeling van een classifier wordt gekeken naar het gebied onder de 

curve (Area Under the Curve of AUC, voor meer uitleg zie Tape (2012)). Een rudimentaire 

indeling voor classifiers aan de hand van hun AUC is als volgt : 

90-100% = excellent 

80-90% = goed 

70-80% = redelijk 

60-70% = zwak 

50-60% = slecht 

Een interessante eigenschap van ROC curves is bovendien dat ze ongevoelig zijn voor onge- 

lijke klassenverdeling (Fawcett (2006)). Dit laatste betekent dat er een grote ongelijkheid 

is tussen de groottes van de verschillende klassen. In hoofdstuk 3.2.3 (p. 29) rond realis- 

tische data hebben we reeds kunnen besluiten dat dit bij ons het geval is. De resultaten 

op verdere pagina’s zullen trouwens aantonen dat een ongelijke klassenverdeling een grote 

invloed heeft op de kwaliteit van de classifier. 

De gegevens nodig voor het genereren van de ROC-curves waren alleen vlot beschikbaar 

bij eigen implementaties. Daarom is er geen ROC-data voor de SVM classifier die getest 

werd aan de hand van een open source bibliotheek (Waldvogel (2011)). 

5.1 Feature selector 

Voor het kiezen van een feature selector zijn er drie keuzes. De opties werden hierboven 

reeds besproken (zie paginanummers tussen haakjes). Voor het verdere verloop van dit 

hoofdstuk zal gebruikgemaakt worden van de afkortingen. 

1. Collection frequency (CF, p. 5) 

2. Document frequency (DF, p. 4) 

3. Mutual information (MI, p. 5) 

Figuur 5.2 (p. 38) geeft een overzicht van de F1 measure wanneer MNB (multinomial naive 

bayes) gecombineerd wordt met verschillende feature selectors. De cijfergegevens die hier- 

voor gebruikt zijn, werden gegenereerd met een evenwichtige trainingsset van 400 positieve


en 400 negatieve documenten. Ook de testset was evenwichtig, zijnde 100 positieve en 

100 negatieve documenten. Evenwichtige training en testen tonen het potentieel van de 

gebruikte algoritmes aan. 

Het eerste datapunt van elke lijn werd bekomen door de feature selector 100 features te 

laten selecteren voor elke klasse, het tweede datapunt van elke lijn wordt bepaald door 200 

features, enz. Telkens in stappen van 100 tot het maximum aantal features voor de testset 

bereikt werd. 

F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 

Aantal features 

Figuur 5.2: MNB gecombineerd met drie verschillende feature selectors. 

Merk op dat de verschillende feature selectors tot verschillende feature-aantallen komen. 

Zo vindt CF en DF elk 10841 features in de trainingsset terwijl MI er slechts 8926 vindt. 

Oorzaak is natuurlijk de manier waarop de feature selector features extraheert uit de data. 

De grafiek kan daarom ook gemaakt worden met het percentage gebruikte features op de 

horizontale as. Met dezelfde dataset als hierboven geeft dit figuur 5.3 (p. 39). 

Omdat op dit punt nog geen keuze gemaakt is voor de text classifier, werd elke text classifier 

gecombineerd met de drie feature selectors (zie bijlage C.1, p. 74). Hoewel de percentages 

van de verschillende combinaties verschillen, vertonen de figuren enkele gelijkenissen. 

CF 

DF 

MI


F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0% 70,0% 80,0% 90,0% 100,0% 

% gebruikte features 

Figuur 5.3: MNB gecombineerd met drie verschillende feature selectors. 

Gelijkenissen rond minima en maxima: 

CF en DF zijn aan elkaar gewaagd, zowel hun maxima als hun mimima situeren zich 

ronde dezelfde feature-aantallen. 

MI presteert merkelijk beter dan CF of DF. 

Gelijkenissen rond verloop van de grafieken: 

CF en DF presteren niet goed wanneer minder dan 10% van de features gebruikt 

wordt om de klassen te definiëren. 

De resultaten van CF en DF dalen wanneer 50% van de features gebruikt wordt. 

MI is de meest stabiele feature selector (minst grillige grafiek). 

MI vertoont een lichte stijging naar mate het aantal gebruikte features toeneemt. 

De MI is dan ook de feature selector waarmee wordt verder gewerkt. 

CF 

DF 

MI


5.2 Text classifier 

Voor het kiezen van een text classifier zijn er eveneens drie keuzes. Ook hier werden de 

opties reeds besproken (zie paginanummers tussen haakjes). Voor het verdere verloop van 

dit hoofdstuk zal gebruikgemaakt worden van de afkortingen. 

1. Binomial naive Bayes (BNB, p. 12) 

2. Multinomial naive Bayes (MNB, p. 10) 

3. Support vector machine (SVM, p. 14) 

F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


Figuur 5.4: MI gecombineerd met drie verschillende text classifiers. 

Figuur 5.4 laat er weinig twijfel over bestaan dat SVM de beste is van de drie geteste text 

classifiers. De combinatie BNB+MI produceert F1 measures ronde de 70%, voor MNB+MI 

draait dit rond de 80%. De combinatie SVM+MI scoort nog beter met resultaten die 

starten rond de 90% voor weinig features en stijgen tot boven de 97% voor bijna alle 

BNB 

MNB 

features. Deze laatste combinaties is dan ook degene waar verder mee gewerkt wordt. 

SVM


5.3 Featurebewerkingen 

Tabel B.3 (p. 68) is, zoals elke tabel rond featurebewerkingen, het resultaat van vier 

testreeksen. De betekenis van de rijen kolomtitels is als volgt: 

- = geen enkele featurebewerking wordt toegepast 

sw = stopwoordfiltering wordt toegepast 

st = stemming wordt toegepast 

sw+st = sw en st worden gezamenlijk toegepast 

min/max R = de minimale en maximale recall 

min/max P = de minimale en maximale precision 

min/max F1 = de minimale en maximale F1 measure 

min/max AUC = de minimale en maximale area under the curve 

Initieel waren ook nog de volgende rijen voorzien: 

av = afbreekstreepjes verwijderen 

min freq X = de minimaal vereiste frequentie van woorden om opgenomen te worden 

in de berekeningen. Zo betekent “min freq 3” dat woorden die minder dan drie keer 

voorkomen niet worden meegenomen in de berekeningen wegens te zeldzaam. 

Deze twee rijen zijn echter niet meer opgenomen in de tabellen in dit hoofdstuk. Zo was 

de invloed van afbreekstreepjes op de F1 measure nooit groter dan enkele tienden van een 

procent. Er is daarom geopteerd om het paper van Kraaij & Pohlmann (1994) te volgen 

en alle afbreekstreepjes te verwijderen. 

Het filteren van zeldzame woorden gebeurde naar aanleiding van het paper van Forman 

(2003). Ook het filteren van zeldzame woorden toonde bij de uitgevoerde testen nooit een 

betekenisvolle invloed, terug maximaal enkele tienden van een procent. Bij het uitvoeren 

van de testen is geopteerd om zeldzame woorden niet te filteren. 

Voor enkele cijfergegevens rond deze beslissingen wordt verwezen naar bijlage B.1 (p. 66).


F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


Figuur 5.5: De invloed van stopwoorden en stemming voor BNB met MI. 

- 

sw 

st 

sw+st 

Om de mogelijke effecten van featurebewerkingen te demonstreren wordt even de combina- 

tie BNB+MI gebruikt. Hieronder zijn de mogelijke invloeden van stemming en stopwoor- 

den op de basisgrafiek zonder featurebewerkingen (-) en de invloed op het classificatieproces 

weergegeven. 

De invloed van stemming ten opzichte van de basisgrafiek: 

Het totaal aantal features wordt met ongeveer 7% verminderd. 

De grafiek wordt samengedrukt naar links, maxima worden eerder bereikt. 

Het stemmingsproces zorgt voor een merkbare vertraging van het classificatieproces. 

De invloed van stopwoordfiltering ten opzichte van de basisgrafiek: 

Het totaal aantal features wordt verminderd met de grootte van de stopwoordlijst. 

De combinatie van Nederlandse en Engelse stopwoorden die hier gebruikt werd, ver- 

mindert het totaal aantal features met ongeveer 1%.


De volledige grafiek schuift naar boven. In grafiek 5.5 stijgen de resultaten met een 

kleine 10%. 

Het filteren van stopwoorden zorgt niet voor een merkbare vertraging van het classi- 

ficatieproces. 

Voor de combinatie SVM+MI zijn de effecten van featurebewerkingen op de resultaten 

nauwelijks aanwezig, zie figuur 5.6. Natuurlijk zorgt stemming nog steeds voor een vertra- 

ging van het classificatieproces. Voor de verdere bespreking van de combinatie SVM+MI 

wordt daarom ook geen enkele featurebewerking toegepast. Alle mogelijke vertragingen die 

featurebewerkingen kunnen hebben op het classificatieproces worden daarmee vermeden. 

F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


Figuur 5.6: De invloed van stopwoorden en stemming voor SVM met MI. 

- 

sw 

st 

sw+st


5.4 Optimalisatie 

Nu de beste combinatie van text classifier en feature selector vastgelegd is op SVM+MI 

is het tijd om te kijken naar de resultaten bij een realistische test. De gegevens van de 

realistische dataset staan beschreven in hoofdstuk 3.2.3 (p. 29). 

test min P min R min F1 max P max R max F1 

evenwichtig 93,8% 82,0% 88,6% 99,0% 96,0% 97,5% 

realistisch 14,2% 78,0% 24,2% 39,4% 92,7% 55,1% 

Tabel 5.2: Resultaten voor verschillende tests bij SVM met MI. 

De minimale en maximale recall dalen respectievelijk met 4,0% en 3,3%. Deze dalingen 

verdwijnen echter in het niets in vergelijking met de dalingen van 79,6% en 49,6% bij 

de minimale en maximale precision. Het gevolg is dat de F1 measure eveneens stevig 

omlaag gaat. Wat volgt zijn twee vormen van optimalisatie, elke met de bedoeling om de 

resultaten bij de realistische test terug op te krikken. Alle volgende tabellen bevatten dan 

ook uitsluitend resultaten op de realistische dataset. 

Beïnvloeden van de parameterverhoudingen 

Zoals blijkt uit de realistische testset is de klassenverdeling zeer onevenwichtig. Dit one- 

venwicht wordt ook wel data skew of “datascheefheid” genoemd (Tang & Liu (2005)). Uit 

de realistische dataset kan besloten worden dat de hoeveelheid seksueel ongepast materiaal 

slechts enkele procenten bedraag van de totale hoeveelheid data. Als we het misbruik- 

percentage uit de realistische dataset afronden, wordt een misbruikpercentage van 2% of 

een verhouding van 1/50 bekomen. Het doel van onevenwichtig trainen is nu om diezelfde 

verhouding ook door te voeren in de trainingsdata. Het immers logisch dat een realistische 

trainingsset beter zal presteren op een realistische testset. 

Het onevenwicht in de trainingsdata kan op twee manieren bekomen worden. 

1. Onevenwichtig trainen op het aantal documenten. 

2. Onevenwichtig trainen op het aantal features. 

Beide zijn sterk met elkaar verwant. Het aantal documenten voor een klasse opdrijven, 

betekent immers dat het aantal beschikbare features voor die klasse mee omhoog gaat. In 

de eerste methode zit dus zeker een deel van het effect van de tweede methode vervat.


Een onevenwicht in documenten kan op twee manieren bereikt worden. De beschikbare 

evenwichtige dataset van 500 positieve en 500 negatieve documenten kan afgebouwd wor- 

den naar bijvoorbeeld 100 positieve en 500 negatieve. De 500 moeizaam verkregen positieve 

documenten afbouwen is echter geen goed idee. 500 documenten is gezien de grote data- 

hoeveelheid reeds miniem en deze dataset verder afbouwen zou zorgen voor een slechtere 

definiëring van de positieve klasse. 

Het alternatief is om de verzameling negatieve trainingsdocumenten flink uit te breiden. 

Maar om ook maar enigszins in de buurt te komen van de verhouding 1/50, gaat het hier 

over duizenden nieuwe negatieve documenten die allemaal zouden moeten gecontroleerd 

worden. Deze controle zou echter flink wat tijd in beslag nemen. Daarom is geopteerd om 

random documenten te samplen en deze zonder controle toe te voegen aan de negatieve 

trainingsset. Precies omdat de klassenverhouding zo groot is, mag de controle overgeslagen 

worden. Er kan immers met grote waarschijnlijkheid gezegd worden dat 98% van alle 

documenten die toegevoegd worden aan de negatieve trainingsset ook effectief negatief 

zijn. 

Om de verhouding tussen features en documenten te tonen zijn enkele nieuwe kolommen 

gedefinieerd in tabel 5.3 (p. 46). Hieronder volgt een verduidelijking van de kolomtitels: 

NoF+ = number of features positive, het aantal features in de positieve trainingsset 

NoF- = number of features negative, het aantal features in de negatieve trainingsset 

NoF ratio = NoF+ / NoF- 

TrS+ = training set positive, het aantal documenten in de positieve trainingsset 

TrS- = training set negative, het aantal documenten in de negatieve trainingsset 

TrS ratio = TrS+ / NoF- 

Voor de realistische testset is deze laatste verhouding dus ongeveer gelijk aan 1/50 = 0, 02. 

Voor het gemak van de besprekingen zijn de testen genummerd. Deze nummering staat 

links van tabel 5.3 (p. 46) en komt terug in figuur 5.7 en 5.8 (p. 47). Merk op dat de 

horizontale as van de figuren terug het percentage gebruikte features toont. Test 1 is de 

baseline en komt overeen met de tweede rij uit tabel 5.2 (p. 44).


NoF+ NoF- NoF ratio TrS+ TrS- TrS ratio min P min R min F1 max P max R max F1 

1 5633 4660 1,2088 500 500 1,000 14,2% 78,0% 24,2% 39,4% 92,7% 55,1% 

Onevenwichtig trainen op documenten Feature-intervallen: [1000-max] (stappen van 1000) 

2 4897 8847 0,5535 500 1000 0,500 15,0% 85,4% 25,5% 26,6% 92,7% 41,3% 

3 4416 12605 0,3503 500 1500 0,333 22,4% 80,5% 35,2% 34,7% 90,2% 50,0% 

4 4157 15364 0,2706 500 2000 0,250 26,4% 82,9% 40,0% 43,5% 90,2% 58,7% 

5 3914 18270 0,2142 500 2500 0,200 27,0% 80,5% 40,5% 44,4% 90,2% 59,0% 

6 3741 20678 0,1809 500 3000 0,167 28,4% 80,5% 42,0% 49,3% 85,4% 62,5% 

7 3593 22704 0,1583 500 3500 0,143 36,3% 78,0% 50,0% 50,7% 85,4% 63,0% 

8 3417 24584 0,1390 500 4000 0,125 40,2% 78,0% 53,7% 51,5% 85,4% 63,6% 

9 3211 27183 0,1181 500 4500 0,111 33,8% 65,9% 44,6% 53,6% 73,2% 61,9% 

Onevenwichtig trainen op features Document-intervallen: [500-2500] (stappen van 100) 

10 4000 4000 1,0000 500 500-2500 22,6% 85,4% 36,1% 46,2% 92,7% 60,5% 

11 4000 3000 1,3333 500 500-2500 22,8% 80,5% 36,5% 49,3% 92,7% 63,8% 

12 4000 2000 2,0000 500 500-2500 22,0% 80,5% 35,4% 50,0% 90,2% 64,3% 

13 4000 1000 4,0000 500 500-2500 23,1% 80,5% 36,8% 48,6% 90,2% 62,7% 

14 4000 500 8,0000 500 500-2500 22,8% 82,9% 36,2% 64,3% 90,2% 74,2% 

15 4000 250 16,0000 500 500-2500 28,7% 80,5% 42,3% 78,3% 90,2% 82,8% 

16 4000 200 20,0000 500 500-2500 35,2% 78,0% 48,5% 76,0% 92,7% 83,5% 

17 4000 150 26,6667 500 500-2500 29,6% 70,7% 41,7% 84,1% 92,7% 87,1% 

18 4000 100 40,0000 500 500-2500 29,9% 75,6% 43,2% 90,5% 92,7% 91,6% 

19 4000 50 80,0000 500 500-2500 34,9% 70,7% 46,8% 94,7% 90,2% 91,4% 

20 3000 4000 0,7500 500 500-2500 20,3% 80,5% 33,2% 38,2% 92,7% 52,3% 

21 2000 4000 0,5000 500 500-2500 17,5% 78,0% 29,2% 31,7% 92,7% 45,5% 

22 1000 4000 0,2500 500 500-2500 10,6% 78,0% 18,8% 25,6% 90,2% 39,1% 

23 500 4000 0,1250 500 500-2500 7,8% 70,7% 14,2% 18,1% 90,2% 29,8% 

Tabel 5.3: Effect van onevenwichtig trainen op SVM+MI.


F1 

F1 

1,00 

0,90 

0,80 

0,70 

0,60 

0,50 

0,40 

0,30 

0,20 

0,10 

0,00 

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 

1,0 

0,9 

0,8 

0,7 

0,6 

0,5 

0,4 

0,3 

0,2 

0,1 


1 (baseline) 2 3 4 7 

Figuur 5.7: Optimalisatie door onevenwichtige trainen op documenten. 

0,0 

500 1000 1500 2000 2500 3000 3500 

Aantal trainingsdocumenten = (TrS+) +( TrS-) 

10 (baseline) 14 16 19 

Figuur 5.8: Optimalisatie door onevenwichtige trainen op features.


Naar mate de TrS ratio daalt, stijgen de minimale en maximale F1 measure. Deze stijging 

word mooi geïllustreerd door de testen 2, 3, 4 en 7 in figuur 5.7 (p. 47). Bij een TrS ratio 

van 0, 125 (test 7) is het effect maximaal. De TrS ratio nog verder verkleinen, zorgt ervoor 

dat de resultaten terug dalen. Onderstaande tabel toont de grootste verbeteringen tussen 

de baseline (test 1) en test 7. 

min F1 △ min F1 max F1 △ max F1 

1 24,2% 55,1% 

7 53,7% +29,5% 63,6% +8,5% 

16 48,5% +24,3% 

18 91,6% +36,5% 

Tabel 5.4: De grootste verbeteringen met onevenwichtig trainen. 

De tweede manier van optimalisatie door onevenwicht focust op de NoF ratio. In de eerste 

manier wordt de baseline verbetert door de TrS ratio te verminderen in de richting van de 

TrS ratio van de testset en NoF- en NoF+ niet te limiteren. Voor de tweede manier wordt 

de NoF ratio vastgelegd en mogen NoF- en NoF+ variëren. Er werd een nieuwe baseline 

gecreëerd voor dit soort test. De resultaten van de nieuwe baseline zijn aangeduid als test 

10. De NoF ratio werd vastgelegd op 1, 00 en TrS- wordt gevarieerd van 500 tot en met 

2500. De TrS ratio varieert daarmee van 1, 0 tot en met 0, 2. 

Om de NoF ratio aan te passen, zijn er terug verschillende mogelijkheden. Eén daarvan 

is om de NoF+ te beperken. Dit wordt gedemonstreerd in testen 20 tot en met 23. De 

resultaten zijn echter niet naar verwachting. Ten opzichte van de nieuwe baseline zijn er 

enkel dalende resultaten te noteren naar mate de NoF ratio afneemt. 

Een tweede mogelijkheid om de NoF ratio aan te passen, is het beperken van NoF-. Bij deze 

manier van onevenwichtig trainen worden de beste resultaten geproduceerd. De maximale 

F1 measure stijgt zelfs boven de 90%. Pas wanneer de NoF ratio gelijk wordt aan 8, 00 in 

test 14 begint de maximale F1 measure flink te stijgen. In test 16 maakt de minimum F1 

measure een sprong omhoog. De F1 measure piekt in test 18, wanneer de NoF ratio 40 

bedraagt. De resultaten verbeteren dus wanneer het omgekeerde van de NoF ratio (hier: 

(1/40) −1 = 0, 025) de class skew benadert (in te realistische test: 0, 02). In test 19 worden 

de negatieve documenten gedefinieerd aan de hand van slechts 50 features. Uitprinten 

van deze 50 features (zie bijlage A.3, p. 64) toont dat het om zeer frequente woorden


gaat, stopwoorden worden immers niet gefilterd. Ondanks het feit dat de negatieve klasse 

nauwelijks gedefinieerd is, worden in combinatie met een goed gedefinieerde positieve klasse 

verrassend goede resultaten geproduceerd. 

Toevoegen van clusteringfeatures 

Na onevenwicht trainen is dit de tweede vorm van optimalisatie. Om de eerste optimalisa- 

tievorm te kunnen toepassen, dient de klassenverdeling (class skew) gekend te zijn. Omdat 

hiervoor de testset gebruikt werd, kan dit gezien worden als een vorm van overtraining. 

Informatie uit de testset wordt gebruikt in de trainingsset om betere resultaten te produ- 

ceren. Wanneer de testset geen goede representatie is van de volledige dataset, is de kans 

groot dat classifier nog steeds zwakke resultaten zal leveren. 

De tweede vorm van optimalisatie steunt daarom op clustering om extra informatie te 

kunnen toevoegen aan de trainingsdata. In het ideale geval wordt de volledige dataset 

geclusterd. Een bewerking die veelal bemoeilijkt wordt door de grote hoeveelheid data en 

waarbij men moet afrekenen met de beperkingen van het beschikbare werkgeheugen van 

de machine waarop de clustering wordt uitgevoerd. De documenten en de centroidvectoren 

zijn de grootste objecten die in het geheugen worden geladen. Voor de test was een machine 

met 4GB RAM-geheugen beschikbaar, goed voor een clustering van maximaal 300.000 do- 

cumenten in 512 clusters. Om het effect van meer of minder clusters te bestuderen werden 

ook testen uitgevoerd met 64, 128 en 256 clusters. De testen worden nu geïdentificeerd met 

een ID samengesteld uit het aantal documenten (300.000 = 300k) en het aantal clusters. 

Het vergaren van clusterinformatie levert voor elke geclusterd document één extra feature 

op, namelijk zijn cluster-ID. Deze cluster-ID’s zijn afkomstig van een bewerking op de 

volledige (of toch zo groot mogelijke) dataset en worden niet afgeleid uit enkel de testset. 

Overtraining zoals bij de eerste vorm van optimalisatie wordt hier dus vermeden. Merk op 

dat de kwaliteit van een clustering fel verbetert wanneer de stopwoorden gefilterd worden. 

Die filtering is daarom ook hier toegepast, de baseline is nu gelijk aan SVM+MI met 

stopwoordfiltering.


min P min R min F1 max P max R max F1 

baseline 12,6% 73,2% 21,8% 36,9% 92,7% 52,8% 

300k64 19,6% 75,6% 31,2% 39,5% 92,7% 53,5% 

300k128 9,4% 63,4% 16,4% 21,7% 95,1% 35,2% 

300k256 13,3% 78,0% 22,7% 29,0% 95,1% 44,2% 

300k512 8,2% 73,2% 14,8% 14,7% 95,1% 25,4% 

Tabel 5.5: Effect van clustering op SVM+MI. 

Uit tabel 5.5 volgt dat het toevoegen van clusteringfeatures aan het classificatieproces 

geen positieve invloed heeft. Figuur 5.9 bevestigt dat hoe groter het aantal clusters is, 

hoe slechter de classifier presteert. Enkel met 64 clusters komen de resultaten terug in de 

buurt van de baseline. Bovendien kan in het begin van grafiek 300k64 een scherpe daling 

waargenomen worden. De hoge startwaarde en de daling van de F1 measure valt in het 

gebied waar de gezamenlijke hoeveelheid clusterfeatures groter dan of gelijk is aan het 

aantal features per klasse aangebracht door de MI feature selector. 

F1 

1,00 

0,90 

0,80 

0,70 

0,60 

0,50 

0,40 

0,30 

0,20 

0,10 

0,00 

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 


Figuur 5.9: Optimalisatie door extra clustering features. 

baseline 

300k64 

300k128 

300k256 

300k512


Inzoomen op het eerste deel van de grafiek voor test 300k64 (figuur 5.10) toont dat de hoge 

precision de oorzaak is van de hoge beginwaarden. De precision start immers op waarde 1, 

alle positief geklasseerde documenten zijn dan ook daadwerkelijk positief voor ongepaste 

seksueel inhoud. Zolang de clusterfeatures de overhand hebben, blijft de precision hoog. 

Er kan dus geargumenteerd worden dat de clustering betere features levert aan de classifier 

dan de MI feature selector. 

1,0 

0,9 

0,8 

0,7 

0,6 

0,5 

0,4 

0,3 

0,2 

0,1 

0,0 

0% 2% 4% 6% 8% 10% 12% 


Figuur 5.10: Inzoomen op het begin van test 300k64 met toevoeging van P en R. 

Voor de eerste zes datapunten van elke grafiek uit figuur 5.10 zijn de aantallen MI features 

gelijk aan 10, 20, 30, 40, 50 en 60 voor elke klasse. Aan die features worden telkens 29 extra 

cluster features toegevoegd. De tweemaal 29 komt voort uit de hier uitgevoerde clustering 

waarbij de negatieve en de positieve trainingsdocumenten elk over 29 clusters verspreid 

liggen. Dit betekent nog niet dat het hier om 58 verschillende clusters gaat. 

Het grote nadeel aan het verwerken van clusteringinformatie in het classificatieproces is de 

tijd die de clustering in beslag neemt. Clusteringen van grote hoeveelheden data nemen 

flink wat tijd in beslag. De eigen implementatie deed er met een Intel Core i5 (een 2,5GHz 

processor) bijna exact 24 uur over om 300.000 documenten te clusteren. Mits gebruik van 

een rekencluster en een geschikte multithreaded implementatie kan de benodigde tijd wel- 

P 

R 

F1


licht flink teruggeschroefd worden. Op die manier zou de classifier bijvoorbeeld periodiek 

kunnen geüpdated worden met een nieuwe clustering. De tijd nodig voor het trainen van 

de classifier is verwaarloosbaar in vergelijking met de clustertijd. De grootste trainingen 

(bijvoorbeeld test 9 uit tabel 5.3 met 5000 documenten, goed voor bijna 30400 features) 

gebeuren nog steeds in enkele seconden. 

5.5 Clustering extra’s 

Afgaande op enkele trefwoorden of de meeste typische documenten van een cluster, komen 

verschillende andere thema’s naar voor. Tussen deze thema’s zitten zowel uitingen van 

emoties zoals verdriet, frustratie en depressie, als ook opvattingen over recente nieuwsfeiten. 

Zeker de vragen naar hulp of berichten die aangeven dat mensen het moeilijk hebben met 

verwerken van een bepaalde gebeurtenis zijn nuttig voor de moderatoren van het sociaal 

netwerk. Wat volgt zijn enkele voorbeelden van de aangehaalde thema’s en de bijhorende 

trefwoorden van de clusters. De informatie werd gehaald uit een clustering van 300.000 

documenten in 512 clusters. Een groot aantal clusters betekent immers dat meer thema’s 

opgedeeld worden in een eigen cluster en dat het onderwerp duidelijker naar voor komt. 

Wat opvalt, is hoe weinig variatie er soms zit tussen de verschillende berichten van één 

cluster. De berichten worden dan ook zeer frequent gekopieerd en opnieuw online gezet 

door de verschillende gebruikers van het sociaal netwerk. 

Uitingen van droefheid en depressie. Vaak gaat het hier om berichten zonder veel 

variatie. 

Sleutelwoorden: verdriet, wanhoop, meisje 

1. Ik zie een meisje met veel verdriet. 

Ik wil haar helpen, maar spiegels praten niet. 

2. ik zie een meisje met heel veel verdriet ik wil haar helpen 

maar ik kan niet tegen spiegels praten :( 

Omgaan met een sterfgeval. 

Sleutelwoord: afscheid 

1. Als ik naar het liedje ‘afscheid nemen bestaat niet’ luister, denk 

ik altijd in mijn eigen waarom ik dan al zoveel afscheid heb moeten 

nemen


2. Afscheid nemen van iemand die je dierbaar was , is enorm moeilijk . 

Ik kreeg telefoon gisteren ochtend van mijn zus dat mijn opa gestorven 

was . De pijn die ik toen voelde wens ik niemand , ik had men opa 

al een hele tijd niet meer gezien . Dus heb ook niet echt te goed 

afscheid kunnen nemen . Vrijdag moet ik de laatste groet doen en ben 

er eigenlijk bang voor omdat ik niet weet hoe zwaar het me zal tillen 

dan zaterdag begravenis . dus ik hoop echt dat niemand afscheid moet 

niemand zoals ik dat moet doen . Niemand van de familie liet me iets 

weten . Dus als jullie iemand moet laten gaan doe dat snel en neem 

de tijd om afscheid te nemen want ik heb dat niet kunnen doen !!!!! 

3. Ik kon helaas geen afscheid nemen 

Ik kan helaas niet bij je zijn 

Maar ik denk aan jullie en voel de pijn 

Pijn die een leven lang zal duren 

Het had ook anders kunnen zijn... 

Uitingen van frustraties en boosheid 

Sleutelwoorden: gvd, godverdomme 

1. Als ik nie in u gezicht ga janken, denkt ge meteen dat ik helemaal 

geen pijn heb MAA GVD, GE HEBT ME ECHT WAAR POKKE VEEL PIJN GDAAN! 

2. speelt dan gvd nie zo memyn voete ? wtf 

3. Shit gast ! hoe moet kik u nu gvd nog kunnen vertrouwen ? xs 

4. ik haat u ! ik haat u ! ik haat u , tot de dood. 

want gij ‘bitch’ hebt godverdomme myn leven verkloot 

5. jongen door u zo hard met onze vriendschap van 1jaar en zoveel fucking 

maanden te zien spelen maakt ge me godverdomme echt kapot ! ;( 

6. eens je geboren bent en ze beginne met je te pesten gaat dat nooit 

meer weg ! kben da gvd zo beu 

Scheldtirades. 

Sleutelwoorden: hoer, bitch, slet, eikel 

1. Noem me een bitch, noem me een slet ; 

maar kijk eerst in de spiegel 

naar u lelijk zelfportret ;)


2. Liever Een Seut. Dan Een Slet Lyk Ghy.. c: 

3. euhm dikke slet, ’kzou ma kalm doen ze. 

4. Noem mij slet, noem mij bitch. 

Noem mij wat je wilt, mij boeit het geen moer. 

Maar bitch, je weet toch ; jij bent hier de hoer. 

5. je hoeft niet in de boom te hangen om een eikel te zijn 

Aanhalingen van de actualiteit, vaak in een spottende context. 

Sleutelwoorden: pedofiel, kerk (deze sleutelwoorden zijn uiteraard variabel) 

1. Ben je pedofiel & zoek je werk? 

ga dan soliciteren by de kerk 

2. seg manne zijde ne pedofiel zonder werk? 

voor mijn part moogde gerust is gaan solliciteren in de kerk. 

daar hebben ze er al wel genoeg, 

dus ge komt misschien op de wachtlijst te staan, 

maar geen nood, ooit moogde wel is naar de gevangenis gaan (: 

Vragenlijsten met ongepaste vragen. De vragenlijsten worden frequent gekopieerd 

en bevatten al snel 30 vragen of meer. Bepaalde vragen (zie voorbeelden) kunnen 

echter niet door de beugel. De voorbeelden zijn hier ingekort en de ongepaste vragen 

geselecteerd. 

Sleutelwoorden: slaan, kussen 

1. [ ] Me tegen een muur duwen en kussen? 

[ ] Naar mijn thuis komen en gewoon chillen? 

[ ] Me slaan? 

[ ] Me slaan als ik het vroeg? 

[ ] Me kussen? 

[ ] Willen dat ik jou kus? 

2. 17. Ben ik lief? 

18. Hoe lang ken je me al? 

... 

33. Hebben we ooit al seks gehad? 

34. Zou je Seks met me willen ?

Hoofdstuk 6 

Conclusie 

Tijdens het onderzoek werden goede resultaten genoteerd voor de classificatie van tekst- 

documenten door een gesuperviseerd leeralgoritme. De verschillende componenten, feature 

selector en text classifier, werden uitvoerig belicht. Op basis van de resultaten uit eigen 

tests werd beslist dat een support vector machine als text classifier gecombineerd met 

mutual information als feature selector de combinatie is die de beste cijfers geeft. 

Een ongelijke klassenverdeling vormt een probleem voor het efficiënt classificeren van tekst- 

documenten. Dit probleem kan het best aangepakt worden door het onevenwichtig in de 

data op één of andere manier door te voeren in de trainingsdata van de text classifier. Zo- 

wel onevenwichtig trainen op documenten als het onevenwichtig trainen op features levert 

significante verbeteringen. In het beste geval wordt een F1 measure van 91,6% bereikt. 

Zowel precision als recall liggen daarbij boven de 90%. 

Het opnemen van clusteringsfeatures tijdens de classificatie levert slechts in een zeer beperkt 

gebied een verbetering. Dit gebied wordt afgebakend door de hoeveelheid gebruikte features 

om de klassen te definiëren. De extra informatie die uit de clustering kan gehaald worden, is 

evenwel niet miniem en nodigt uit tot verder onderzoek. Met de juiste trainingsdocumenten 

moet de classifier in staat zijn om niet enkel seksueel misbruik, maar bijvoorbeeld ook 

gevallen van depressie, pestgedrag of spam te detecteren. 

55

Hoofdstuk 6. Conclusie 56 

De conclusie is dat een lerend systeem zeker kan bijdragen tot de automatisatie van onge- 

paste documenten op sociale netwerksites. Een classifier kan zo automatisch documenten 

aanbrengen ter revisie voor de moderatoren. Documenten die door de moderator definitief 

als positief gemarkeerd worden, kunnen daarna opgenomen worden in de trainingsset van 

het leeralgoritme. Een grotere trainingsset zal de classifier zeker ten goede komen. Het 

opstellen van een goede trainingsset, representatief voor de volledige dataverzameling, is 

immers cruciaal voor de prestatie van de classifier.

Bibliografie 

1ste Keuze BV (2012). English stopwords. http://www.ranks.nl/resources/stopwords. 

html. Geraadpleegd op 18 augustus 2012. 

D. Aloise, A. Deshpande, P. Hansen & P. Popat (2009). Np-hardness of euclidean sum- 

of-squares clustering. Mach. Learn., 75(2):245–248. ISSN 0885-6125. URL http://dx. 

doi.org/10.1007/s10994-009-5103-0. 

L. Barbosa & J. Feng (2010). Robust sentiment detection on twitter from biased and noisy 

data. In Proceedings of the 23rd International Conference on Computational Linguistics: 

Posters, COLING ’10, pp. 36–44. Association for Computational Linguistics, Strouds- 

burg, PA, USA. URL http://dl.acm.org/citation.cfm?id=1944566.1944571. 

T. Fawcett (2006). An introduction to roc analysis. Pattern Recogn. Lett., 27(8):861–874. 

ISSN 0167-8655. URL http://dx.doi.org/10.1016/j.patrec.2005.10.010. 

G. Forman (2003). An extensive empirical study of feature selection metrics for text 

classification. J. Mach. Learn. Res., 3:1289–1305. ISSN 1532-4435. URL http://dl. 

acm.org/citation.cfm?id=944919.944974. 

K. Grabczewski & N. Jankowski (2005). Feature selection with decision tree criterion. In 

Proceedings of the Fifth International Conference on Hybrid Intelligent Systems, HIS 

’05, pp. 212–217. IEEE Computer Society, Washington, DC, USA. ISBN 0-7695-2457-5. 

URL http://dx.doi.org/10.1109/ICHIS.2005.43. 

N. Jindal & B. Liu (2008). Opinion spam and analysis. In Proceedings of the internati- 

onal conference on Web search and web data mining, WSDM ’08, pp. 219–230. ACM, 

New York, NY, USA. ISBN 978-1-59593-927-2. URL http://doi.acm.org/10.1145/ 

1341531.1341560. 

57


R. Kohavi (1996). Scaling up the accuracy of naive-bayes classifiers: a decision-tree hy- 

brid. In PROCEEDINGS OF THE SECOND INTERNATIONAL CONFERENCE ON 

KNOWLEDGE DISCOVERY AND DATA MINING, pp. 202–207. AAAI Press. 

W. Kraaij & R. Pohlmann (1994). Porter’s stemming algorithm for dutch. In Informatie- 

wetenschap 1994: Wetenschappelijke bijdragen aan de derde STINFON Conferentie, pp. 

167–180. 

C. D. Manning, P. Raghavan & H. Schtze (2008). Introduction to Information Retrieval. 

Cambridge University Press, New York, NY, USA. ISBN 0521865719, 9780521865715. 

Netlog (2012). Over netlog. http://nl.netlog.com/go/about. Geraadpleegd op 28 juli 

2012. 

B. Pang & L. Lee (2004). A sentimental education: sentiment analysis using subjectivity 

summarization based on minimum cuts. In Proceedings of the 42nd Annual Meeting 

on Association for Computational Linguistics, ACL ’04. Association for Computatio- 

nal Linguistics, Stroudsburg, PA, USA. URL http://dx.doi.org/10.3115/1218955. 

1218990. 

B. Pang & L. Lee (2008). Opinion mining and sentiment analysis. Found. Trends Inf. 

Retr., 2(1-2):1–135. ISSN 1554-0669. URL http://dx.doi.org/10.1561/1500000011. 

H. Tang, S. Tan & X. Cheng (2009). A survey on sentiment detection of reviews. Expert 

Syst. Appl., 36(7):10760–10773. ISSN 0957-4174. URL http://dx.doi.org/10.1016/ 

j.eswa.2009.02.063. 

L. Tang & H. Liu (2005). Bias analysis in text classification for highly skewed data. In 

Proceedings of the Fifth IEEE International Conference on Data Mining, ICDM ’05, pp. 

781–784. IEEE Computer Society, Washington, DC, USA. ISBN 0-7695-2278-5. URL 

http://dx.doi.org/10.1109/ICDM.2005.34. 

T. G. Tape (2012). The area under an roc curve. http://gim.unmc.edu/dxtests/ROC3. 

htm. Geraadpleegd op 3 juli 2012. 

D. van Holten (2008). Dutch stop words. http://www.damienvanholten.com/blog/ 

dutch-stop-words/. Geraadpleegd op 18 augustus 2012. 

B. Waldvogel (2011). Java version of liblinear. http://www.bwaldvogel.de/ 

liblinear-java/. Geraadpleegd op 3 juli 2012.


S. Zhu, X. Ji, W. Xu & Y. Gong (2005). Multi-labelled classification using maximum 

entropy method. In In Proc. SIGIR, pp. 274–281. ACM Press.

Appendices 

60

Bijlage A 

Woordenlijsten 

A.1 Nederlandse stopwoorden 

1. aan 

2. af 

3. al 

4. alles 

5. als 

6. altijd 

7. andere 

8. ben 

9. bij 

10. daar 

11. dan 

12. dat 

13. de 

14. der 

15. deze 

16. die 

17. dit 

18. doch 

19. doen 

20. door 

21. dus 

22. een 

23. eens 

24. en 

25. er 

26. ge 

27. geen 

28. geweest 

61 

29. haar 

30. had 

31. heb 

32. hebben 

33. heeft 

34. hem 

35. het 

36. hier 

37. hij 

38. hoe 

39. hun 

40. iemand 

41. iets 

42. ik 

43. in 

44. is 

45. ja 

46. je 

47. kan 

48. kon 

49. kunnen 

50. maar 

51. me 

52. meer 

53. men 

54. met 

55. mij 

56. mijn

Bijlage A. Woordenlijsten 62 

57. moet 

58. na 

59. naar 

60. niet 

61. niets 

62. nog 

63. nu 

64. of 

65. om 

66. omdat 

67. ons 

68. ook 

69. op 

70. over 

71. reeds 

72. te 

73. tegen 

74. toch 

75. toen 

76. tot 

77. u 

78. uit 

79. uw 

80. van 

A.2 Engelse stopwoorden 

1. a 

2. about 

3. above 

4. after 

5. again 

6. against 

7. all 

8. am 

9. an 

10. and 

11. any 

12. are 

13. aren’t 

14. as 

15. at 

16. be 

17. because 

18. been 

81. veel 

82. voor 

83. want 

84. waren 

85. was 

86. wat 

87. we 

88. wel 

89. werd 

90. wezen 

91. wie 

92. wij 

19. before 

20. being 

21. below 

22. between 

23. both 

24. but 

25. by 

26. can’t 

27. cannot 

93. wil 

94. worden 

95. zal 

96. ze 

97. zei 

98. zelf 

99. zich 

100. zij 

101. zijn 

102. zo 

103. zonder 

104. zou 

28. could 

29. couldn’t 

30. did 

31. didn’t 

32. do 

33. does 

34. doesn’t 

35. doing 

36. don’t


37. down 

38. during 

39. each 

40. few 

41. for 

42. from 

43. further 

44. had 

45. hadn’t 

46. has 

47. hasn’t 

48. have 

49. haven’t 

50. having 

51. he 

52. he’d 

53. he’ll 

54. he’s 

55. her 

56. here 

57. here’s 

58. hers 

59. herself 

60. him 

61. himself 

62. his 

63. how 

64. how’s 

65. i 

66. i’d 

67. i’ll 

68. i’m 

69. i’ve 

70. if 

71. in 

72. into 

73. is 

74. isn’t 

75. it 

76. it’s 

77. its 

78. itself 

79. let’s 

80. me 

81. more 

82. most 

83. mustn’t 

84. my 

85. myself 

86. no 

87. nor 

88. not 

89. of 

90. off 

91. on 

92. once 

93. only 

94. or 

95. other 

96. ought 

97. our 

98. ours 

99. ourselves 

100. out 

101. over 

102. own 

103. same 

104. shan’t 

105. she 

106. she’d 

107. she’ll 

108. she’s 

109. should 

110. shouldn’t 

111. so 

112. some 

113. such 

114. than 

115. that 

116. that’s 

117. the 

118. their 

119. theirs 

120. them 

121. themselves 

122. then 

123. there 

124. there’s 

125. these 

126. they 

127. they’d 

128. they’ll


129. they’re 

130. they’ve 

131. this 

132. those 

133. through 

134. to 

135. too 

136. under 

137. until 

138. up 

139. very 

140. was 

141. wasn’t 

142. we 

143. we’d 

144. we’ll 

145. we’re 

146. we’ve 

147. were 

148. weren’t 

149. what 

150. what’s 

151. when 

152. when’s 

A.3 Beperkte featurelijst 

1. als 

2. ben 

3. com 

4. doen 

5. een 

6. eens 

7. eerste 

8. eigen 

9. en 

153. where 

154. where’s 

155. which 

156. while 

157. who 

158. who’s 

159. whom 

160. why 

161. why’s 

162. with 

163. won’t 

164. would 

10. gedaan 

11. hard 

12. heb 

13. hebben 

14. hebt 

15. hoe 

16. ik 

17. ja 

18. je 

165. wouldn’t 

166. you 

167. you’d 

168. you’ll 

169. you’re 

170. you’ve 

171. your 

172. yours 

173. yourself 

174. yourselves


19. jij 

20. jou 

21. kijk 

22. laten 

23. lekker 

24. mag 

25. maken 

26. man 

27. meisje 

28. met 

29. mij 

30. nl 

31. of 

32. om 

33. op 

34. open 

35. te 

36. that 

37. the 

38. toe 

39. toen 

40. van 

41. voor 

42. wanneer 

43. weer 

44. wil 

45. willen 

46. word 

47. wow 

48. wub 

49. zijn 

50. zou

Bijlage B 

Resultaattabellen 

B.1 Initiële testen 

Het verwijderen van afbreekstreepjes toont geen grote invloed op de resultaten. Hieronder 

zijn enkele resultaten weergegeven voor verschillende text classifiers (TC) gecombineerd 

met enkele feature selectors (FS). 

TC+FS afbr.streepje min F1 min AUC max F1 max AUC 

BNB+DF 

BNB+MI 

MNB+DF 

MNB+MI 

SVM+DF 

SVM+MI 

nee 47,5% 46,3% 73,4% 49,3% 

ja 47,5% 46,3% 73,2% 49,3% 

nee 69,9% 71,0% 83,2% 76,5% 

ja 69,9% 69,4% 83,3% 76,3% 

nee 56,8% 44,6% 86,1% 48,9% 

ja 56,8% 44,7% 85,9% 48,9% 

nee 74,0% 44,9% 85,7% 76,2% 

ja 73,3% 44,7% 85,0% 76,4% 

nee 52,9% 87,3% 

ja 53,7% 87,6% 

nee 81,0% 99,0% 

ja 81,0% 99,0% 

Tabel B.1: Weglaten van afbreekstreepjes voor verschillende classifiers. 

66

Bijlage B. Resultaattabellen 67 

Het filteren van zeldzame woorden wijzigt de resultaten nauwelijks. In de eerste rij worden 

geen woorden gefilterd. Voor de tweede rij worden enkel woorden beschouwd die minsten 

tweemaal voorkomen, voor de derde rij woorden die mistens driemaal voorkomen, etc. 

min freq min P min R min F1 max P max R max F1 

1 93,8% 82,0% 88,6% 99,0% 96,0% 97,5% 

2 93,8% 82,0% 88,6% 99,0% 96,0% 97,5% 

3 93,8% 82,0% 88,6% 99,0% 96,0% 97,5% 

4 93,8% 82,0% 88,6% 99,0% 96,0% 97,5% 

5 93,8% 82,0% 88,6% 99,0% 96,0% 97,5% 

Tabel B.2: Filteren van zeldzame woorden bij SVM met MI.


B.2 Multinomiaal naieve Bayes 

Overzicht van alle testen voor de MNB classifier. 

Evenwichtige tests 

bewerkingen min P min R min F1 min AUC max P max R max F1 max AUC 

- 65,5% 52,0% 64,6% 43,0% 85,2% 81,0% 79,4% 46,7% 

sf 64,5% 46,0% 59,4% 83,9% 80,0% 79,4% 

st 61,5% 50,0% 64,1% 91,3% 86,0% 79,8% 

sf+st 59,2% 50,0% 63,7% 87,7% 84,0% 80,6% 

Realistische tests 


- 2,7% 43,9% 5,0% 4,3% 82,9% 8,2% 

sf 2,5% 53,7% 4,7% 4,3% 85,4% 8,2% 

st 2,9% 43,9% 5,5% 4,4% 82,9% 8,3% 

sf+st 2,3% 43,9% 4,4% 4,3% 82,9% 8,1% 

Tabel B.3: Resultaten voor verschillende featurebewerkingen bij MNB met CF. 



- 64,5% 43,0% 56,2% 40,0% 89,8% 81,0% 81,0% 44,7% 

sf 60,2% 46,0% 60,1% 87,0% 87,0% 80,2% 

st 60,2% 46,0% 60,1% 87,0% 87,0% 80,2% 

sf+st 59,1% 49,0% 62,0% 88,2% 86,0% 80,8% 


- 2,3% 31,7% 4,4% 4,1% 80,5% 7,8% 

sf 2,4% 51,2% 4,5% 4,4% 82,9% 8,3% 

st 2,4% 36,6% 4,5% 4,4% 80,5% 8,4% 

sf+st 2,2% 46,3% 4,3% 4,4% 82,9% 8,3% 

Tabel B.4: Resultaten voor verschillende featurebewerkingen bij MNB met DF.




- 67,6% 76,0% 79,2% 47,9% 82,6% 99,0% 84,0% 63,4% 

sf 83,8% 76,0% 80,9% 94,4% 95,0% 89,9% 

st 67,1% 78,0% 78,2% 85,2% 98,0% 88,5% 

sf+st 79,0% 73,0% 80,7% 94,0% 94,0% 90,0% 


- 2,8% 75,6% 5,5% 3,2% 92,7% 6,1% 

sf 2,9% 73,2% 5,6% 4,3% 90,2% 8,1% 

st 2,8% 78,0% 5,4% 3,2% 92,7% 6,2% 

sf+st 2,7% 78,0% 5,3% 4,1% 92,7% 7,9% 

Tabel B.5: Resultaten voor verschillende featurebewerkingen bij MNB met MI.


B.3 Binomiaal naive Bayes 

Overzicht van alle testen voor de BNB classifier. 



- 48,4% 67,0% 59,8% 43,0% 65,0% 93,0% 71,3% 46,7% 

sf 52,0% 54,0% 62,8% 75,0% 95,0% 75,7% 

st 49,0% 66,0% 59,0% 68,8% 93,0% 70,5% 

sf+st 50,0% 60,0% 63,1% 78,9% 97,0% 74,4% 



- 1,9% 58,5% 3,8% 2,4% 85,4% 4,7% 

sf 2,0% 61,0% 3,9% 2,6% 92,7% 5,0% 

st 1,8% 53,7% 3,4% 2,4% 82,9% 4,6% 

sf+st 1,9% 61,0% 3,7% 2,5% 87,8% 4,9% 

Tabel B.6: Resultaten voor verschillende featurebewerkingen bij BNB met CF. 



- 49,4% 63,0% 61,1% 42,8% 63,9% 94,0% 70,7% 47,1% 

sf 52,0% 56,0% 64,7% 76,7% 96,0% 74,5% 

st 49,0% 66,0% 59,6% 70,8% 93,0% 77,3% 

sf+st 51,2% 60,0% 63,4% 73,2% 96,0% 74,8% 



- 1,6% 51,2% 3,1% 2,5% 87,8% 4,9% 

sf 1,8% 56,1% 3,4% 2,5% 92,7% 4,9% 

st 1,7% 58,5% 3,3% 2,5% 87,8% 4,8% 

sf+st 1,8% 58,5% 3,6% 2,5% 87,8% 4,9% 

Tabel B.7: Resultaten voor verschillende featurebewerkingen bij BNB met DF.




- 53,8% 93,0% 69,9% 60,0% 70,5% 100,0% 80,2% 76,2% 

sf 62,5% 91,0% 76,9% 85,3% 100,0% 89,7% 

st 53,2% 93,0% 69,4% 69,9% 100,0% 79,8% 

sf+st 59,9% 90,0% 74,9% 83,9% 100,0% 88,7% 



- 2,2% 95,1% 4,4% 2,6% 100,0% 5,1% 

sf 2,4% 87,8% 4,6% 3,1% 100,0% 5,9% 

st 2,2% 97,6% 4,4% 2,6% 100,0% 5,0% 

sf+st 2,3% 92,7% 4,5% 2,9% 100,0% 5,6% 

Tabel B.8: Resultaten voor verschillende featurebewerkingen bij BNB met MI.


B.4 Support vector machine 

Overzicht van alle testen voor de SVM classifier. 


bewerkingen min P min R min F1 max P max R max F1 

- 85,8% 81,0% 84,5% 93,3% 91,0% 89,6% 

sf 89,6% 81,0% 85,3% 95,6% 87,0% 90,5% 

st 86,7% 81,0% 85,4% 93,4% 91,0% 90,5% 

sf+st 92,4% 80,0% 86,0% 95,4% 90,0% 91,8% 



- 4,5% 68,3% 8,4% 5,4% 82,9% 10,2% 

sf 4,2% 68,3% 8,0% 5,3% 87,8% 10,1% 

st 4,4% 70,7% 8,3% 5,3% 82,9% 10,0% 

sf+st 4,2% 70,7% 8,0% 5,6% 87,8% 10,4% 

Tabel B.9: Resultaten voor verschillende featurebewerkingen bij SVM met CF. 



- 85,7% 81,0% 84,4% 93,5% 88,0% 89,6% 

sf 89,4% 79,0% 84,5% 94,4% 87,0% 90,2% 

st 86,7% 81,0% 85,3% 93,5% 91,0% 90,3% 

sf+st 89,4% 80,0% 86,0% 94,3% 88,0% 90,7% 



- 4,3% 63,4% 8,1% 5,2% 82,9% 9,7% 

sf 4,2% 68,3% 7,9% 6,1% 82,9% 11,4% 

st 4,4% 68,3% 8,3% 5,3% 85,4% 9,9% 

sf+st 4,2% 68,3% 8,0% 5,4% 85,4% 10,1% 

Tabel B.10: Resultaten voor verschillende featurebewerkingen bij SVM met DF.




- 93,8% 82,0% 88,6% 99,0% 96,0% 97,5% 

sf 94,7% 81,0% 88,0% 99,0% 95,0% 96,9% 

st 96,8% 85,0% 90,9% 99,0% 97,0% 98,0% 

sf+st 94,8% 84,0% 90,3% 99,0% 95,0% 96,9% 



- 14,2% 78,0% 24,2% 39,4% 92,7% 55,1% 

sf 12,6% 73,2% 21,8% 36,9% 92,7% 52,8% 

st 15,5% 85,4% 26,5% 39,6% 92,7% 54,5% 

sf+st 15,0% 78,0% 25,1% 31,6% 92,7% 46,8% 

Tabel B.11: Resultaten voor verschillende featurebewerkingen bij SVM met MI.

Bijlage C 

Figuren 

C.1 Feature selectors 

F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


Figuur C.1: BNB gecombineerd met drie verschillende feature selectors. 

74 

CF 

DF 

MI

Bijlage C. Figuren 75 

F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


Figuur C.2: MNB gecombineerd met drie verschillende feature selectors. 

F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


Figuur C.3: SVM gecombineerd met drie verschillende feature selectors. 

CF 

DF 

MI 

CF 

DF 

MI


C.2 Featurebewerkingen 

F1 

F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


- 

sw 

st 

sw+st 

Figuur C.4: Invloed van featurebewerkingen op BNB met CF. 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


- 

sw 

st 

sw+st 

Figuur C.5: Invloed van featurebewerkingen op BNB met DF.


F1 

F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


- 

sw 

st 

sw+st 

Figuur C.6: Invloed van featurebewerkingen op BNB met MI. 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


- 

sw 

st 

sw+st 

Figuur C.7: Invloed van featurebewerkingen op MNB met CF.


F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


- 

sw 

st 

sw+st 

Figuur C.8: Invloed van featurebewerkingen op MNB met DF. 

F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


- 

sw 

st 

sw+st 

Figuur C.9: Invloed van featurebewerkingen op MNB met MI.


F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


- 

sw 

st 

sw+st 

Figuur C.10: Invloed van featurebewerkingen op SVM met CF. 

F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


- 

sw 

st 

sw+st 

Figuur C.11: Invloed van featurebewerkingen op SVM met DF.


F1 

1,00 

0,95 

0,90 

0,85 

0,80 

0,75 

0,70 

0,65 

0,60 

0,55 

0,50 

0 1000 2000 3000 4000 5000 6000 


- 

sw 

st 

sw+st 

Figuur C.12: Invloed van featurebewerkingen op SVM met MI.

Bijlage D 

Afkortingen 

AUC − area under the curve 

BNB − binomial naive bayes 

CF − collection frequency 

DF − document frequency 

F1 − F1 measure 

FN − false negative 

FP − false positive 

FPR − false positive rate 

IDF − inverse document frequency 

MI − mutual information 

MNB − multinomial naieve bayes 

NoF- − number of negative features 

NoF+ − number of positive features 

P − precision 

R − recall 

ROC − receiver operator characteristic 

sf − stopwoordfiltering 

st − stemming 

SVM − support vector machine 

TF − term frequency 

TN − true negative 

TP − true positive 

TPR − true positive rate 

TrS+ − number of positive training documents 

TrS- − number of negative training documents 

81

Paper - Hogeschool Gent

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?