Doel
Doel referentietestset
- Laten zien hoe vaak de CopyrightCheck classificatie overeenkomt met de handmatige classificatie d.m.v. een confusion matrix
- Laten zien dat CopyrightCheck verbetert (voor instellingen UNL en UvO), de geautomatiseerde classificatie van CopyrightCheck steeds vaker overeenkomt met de handmatige en dat we niet teveel overnames missen
Doel trainingset
- De instellingen leveren geven toestemming aan SURF om voor tenminste een verdere 100 leermaterialen per classificatie de documenten te bewaren en in te zien om de machine learning aanpak mee te verbeteren. Dit zijn andere leermaterialen dan in de referentietestset
Doel regressietestset
- Checken of wijzigingen ook echt verbeteringen zijn en niet leiden tot ongewenste effecten voordat deze live gebracht wordt
- Zorgen dat ook al is een wijziging een verbetering overall daardoor bepaalde edge cases (vooral belangrijke) juist weer niet goed gaan
Bijkomende voordelen
- Vergoten classificeer expertise deelnemers
- Verbeteren training, handleiding en tooltip
- Wellicht vinden we zelfs verbetering voor het geautomatiseerde classificeren
- Mogelijk helpt het zelfs meer duidelijkheid te scheppen in de volgende easy access regeling
Verdere voordelen voor jouw instelling om deel te nemen
- Het proces om de testset te maken is een soort van test en training op de nieuwe classificaties in versie 2. Het zal helpen eventuele onduidelijkheden over het toepassen van de nieuwe classificatie op te lossen.
- Je kunt als instelling invloed hebben op meer gezamenlijke afstemming over hoe geclassificeerd wordt en wat binnen de easy access regeling valt
- Je kunt zo zien hoe CRC het doet tov jouw classificaties wat wellicht zorgt voor meer vertrouwen
Uitgangspunten
De testset blijft gelijk zodat verbeteringen over tijd meetbaar zijn. Waar nodig kan er een aanvullende testset naast lopen, bijvoorbeeld voor classificaties die in eerste instantie niet voldoende beschikbaar waren.
- De testset is zodanig samengesteld dat alle classificaties die we willen meten voldoende vertegenwoordigd zijn (minimaal 100 per klasse). Hoewel de set dus niet volledig willekeurig is, zorgen we er wel voor dat de samenstelling representatief gemaakt wordt — door de verhouding tussen classificaties globaal aan te laten sluiten bij wat we in de praktijk zien binnen een geselecteerde groep van geclassificeerde leermaterialen. We delen daarbij geen absolute aantallen.
- We gebruiken op advies van het SURF machine learning team een gewogen referentietestset: alle classificaties die we willen meten moeten voldoende gerepresenteerd zijn, tenminste 100 per classificatie. De testset kan representatief gemaakt worden (er kan gekeken worden wat op dat moment de verhoudingen zijn binnen een bepaalde scope van geclassificeerde leermaterialen)
- Hoe meer instellingen deelnemen, hoe waardevoller de testset
- We gebruiken zoveel mogelijk de handmatige classificaties die al door instellingen zijn gedaan
Aanpak
- We meten de volgende classificaties die door de machine learning gegeven kunnen worden (niet exact gelijk aan de handmatige classificaties):
- Licentie plichtig van UvO uitgever: toestemming van UvO
- Kort
- Middellang
- Lang
- Licentie plichtig niet van UvO uitgever
- Kort
- Middellang
- Lang
- Student werk: mits voldoende gevonden kan worden en dit gebruikt mag worden
- Open access
- Publiek domein: mits hiervan voldoende
- Eigen werk: mits dit van de instellingen hiervoor gebruikt mag worden
- Licentie plichtig van UvO uitgever: toestemming van UvO
- Van elk van deze worden tenminste 100 opgenomen in de testset.
- Student werk en publiek domein zijn in versie 1 nog geen eigen classificaties dus mogelijk hebben we hier niet voldoende van om mee te kunnen nemen in de testset. We gebruiken het "remarks" veld in CopyrightCheck om leermaterialen in deze categorien te identificeren. Voor student werk moet ook nog onderzocht worden hoe toestemming voor het gebruik gegeven kan worden. Wanneer niet mogelijk dan worden deze classificaties nog niet meegenomen. Eventueel kan later een testset samengesteld worden waarin deze classificaties wel zijn opgenomen wat dan naast de eerste testset meeloopt.
- Er is goedkeuring van de instellingen nodig om de leermaterialen voor dit doeleinde te gebruiken en te bewaren. SURF zoekt nog uit in welk vorm die gegeven kan worden. Het idee is dat UvO UNL VH SURF en de instellingen deze leermaterialen in kunnen zien
- Instellingen geven aan of van leermaterialen in de categorie licentie nodig aan te geven of ze van een UvO uitgever of niet van een UvO zijn (wanneer geen verdere licentie beschikbaar zou zijn dan zouden dit inbreukmakende of andere overnames zijn). Voor de testset wordt niet gekeken of er een licentie beschikbaar is. Deze onderscheiding is ook waardevol voor de migratie naar versie 2 waarin dit verschil gemaakt wordt. In versie 1 werd dit verschil niet gemaakt.
- UvO ontvangt de leermaterialen uit de testset en classificeert deze volgens de nieuwe classificatie van CopyrigthCheck versie 2, in Excel.
- De instellingen, UNL, VH en SURF bespreken de verschillen met de UvO classificatie en hun eigen classificatie voor
- Vervolgens worden overgebleven verschillen met UvO besproken
- Instellingen kunnen desgewenst voorbeelden van "edge cases" aanleveren, lastige gevallen die opgenomen worden in een regressietestset die naast de referentietestset gebruikt wordt om te checken of wijzigingen ook voor deze gevallen verbeteringen zijn
Samenstelling testset
- We moeten de documenten bewaren zolang we deze referentietestset bewaren. Het is de bedoeling dat deze gelijk blijft
- om de documenten te bewaren is een aanpassing van de verwerkingsspecificatie nodig. SURF vraagt de instellingen of ze hiermee akkoord gaan
- Het is ook niet ideaal om al met een CRC classificatie te starten, zuiverder zou zijn om deze testset leeg aangeboden te krijgen (maar dit zou dan in Excel moeten.
willen we zonder CRC classificatie in Excel werken? Voordeel is dat UvO ook Excel gebruikt. Nadeel is dat je dan niet de nieuwe interface test en dat het meer werk is omdat het systeem niet al iets invult maar je alles handmatig in moet vullen. Ook is een nadeel dat gebruikers aanpassingen zouden kunnen doen in Excel wat de resultaten onbruikbaar zou maken en heel zonde van het werk zou zijn (dit komt ondanks afspraken volgens onze experts toch vaak voor). We gebruiken overigens wel de classificaties om te zorgen dat alle machine learning classificaties vertegenwoordigd zijn
kunnen de referentietestset classificaties ook bewaard worden en worden ze onderdeel van de rapportages? Of blijven ze apart zijn? Worden ze ook gebruikt om ML te trainen? Als ze toch apart blijven zouden we de handmatige classificaties kunnen gebruiken om te zorgen dat alle klassen vertegenwoordigd zijn.
We hebben dit eerder gedaan met een testset van de VU. We willen dit nu breder inzetten en zoveel mogelijk instellingen deel laten nemen.
Kunnen we iets gebruiken wat we al hebben?
Menno Grijpma kunnen we zien welke niet door CRC als potentiële overname geclassificeerde leermaterialen een handmatige classificatie hebben gekregen? Kunnen we de leermaterialen (met toestemming van de instellingen) nog ophalen en bewaren?