image strip catch 02

Checkers

Checkers is een project van het Projectbureau CatchPlus in samenwerking met de Rijksdienst voor het Cultureel Erfgoed en Naturalis en wordt gesubsidieerd door NWO, het Ministerie van OC&W en SenterNovem.

Doel van CatchPlus is om functionaliteiten die door diverse universiteiten zijn ontwikkeld in het kader van het Catch (Continuous Access to Cultural Heritage) programma te laten doorontwikkelen tot praktisch bruikbare toepassingen. Het gaat hierbij dus om valorisatie. In Checkers werkt Trezorix functionaliteiten uit die oorspronkelijk werden ontwikkeld door de Universiteit van Tilburg.

Het project Checkers bestaat uit twee onderdelen: de EntityChecker en de ValueChecker.

Met de EntityChecker kunnen z.g. named entities in vrije teksten herkend en geëxtraheerd worden. Named entities zijn bijvoorbeeld datums in verschillende formaten, geografisch locaties, of termen die ook voorkomen in trefwoordenlijsten. De EntityChecker kan gebruikt worden als hulpmiddel bij het toekennen van metadata aan ongestructureerde data zoals artikelen, brieven en rapporten.

Met de ValueChecker kunnen databases en spreadsheets geanalyseerd worden op inconsequenties of fouten in de invulling. Bij de analyse kan er gebruik gemaakt worden van referentiestructuren om tot meer gerichte resultaten te komen. Ook kunnen er eerder opgeschoonde datasets als vergelijkingsmateriaal voor verbeterde analyse gebruikt worden. Na analyse geeft de ValueChecker suggesties voor mogelijke opschoning van de data.

Voor de EntityChecker wordt gebruik gemaakt van OpenBoek, voor de ValueChecker van Tinpute. Beide toepassingen zijn ontwikkeld door de Universiteit van Tilburg. De EntityChecker en de ValueChecker worden in het kader van CatchPlus beide beschikbaar gesteld als webservice.

Zie ook www.nwo.nl/catch en www.catchplus.nl

 
tekst zoeken