Summerschool in Language Engineering

In de zomer van 1999 verbleef ik twee weken in New Mexico om deel te nemen aan de Summerschool in Language Engineering (SSLE) die werd georganiseerd door de Computing Research Laboratory (CRL) van New Mexico State University (NMSU) te Las Cruces.

Mijn deelname aan deze zomerschool werd mogelijk gemaakt doordat het inschrijfgeld, de reis- en de verblijfkosten werden betaald uit gelden van de Spinoza-premie die in 1997 door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) werd toegekend aan Prof.Dr. F.H.H. Kortlandt, hoogleraar Balto-Slavische talen en Beschrijvende en vergelijkende taalkunde aan de Universiteit Leiden.

1. organisatie en deelname

Het CRL is in 1983 opgericht door de NMSU. Op het CRL houdt een staf van ongeveer 60 mensen zich bezig met computertoepassingen op het gebied van Natural Language Processing (NLP). Sinds 1990 is het laboratorium financieel onafhankelijk dankzij opdrachten die het op projectbasis uitvoert voor overheden, bedrijven en academische zusterinstellingen. Naast deze externe opdrachten houdt het CRL zich ook bezig met fundamenteel onderzoek naar nieuwe technologieën. De stafleden publiceren veel, doen regelmatig op congressen verslag van hun bevindingen, en geven begeleiding aan Ph.D.-studenten.

De SSLE werd in 1999 voor het eerst gehouden. Het initiatief kwam voort uit de behoefte om meer bekendheid te geven aan het werk van het CRL. De SSLE telde officieel 22 ingeschreven deelnemers; daarnaast namen op onregelmatige basis stafleden en studenten van de NMSU aan de colleges en practica deel. De officiële deelnemers waren afkomstig uit tien landen: Australië (1), Canada (1), Egypte (2), Mexico (1), Italië (1), Nederland (1), Palestina (1), UK (4), USA (8) en Zweden (2). Onder hen bevonden zich enerzijds collega’s en studenten werkzaam op het gebied van computer science, computer engineering, NLP en taalkunde; en anderzijds vertegenwoordigers van potentiële klanten uit het bedrijfsleven (vooral softwarebedrijven) en de overheid (met name veiligheidsdiensten).

2. rooster

De deelnemers aan de SSLE volgden gedurende twee weken een intensief programma van hoorcolleges en computerpractica. De behandelde materie was als volgt ingedeeld:

De computerpractica en de hoorcolleges wisselden elkaar meestal per dagdeel af. De hoorcolleges werden uitgebreid ondersteund door schriftelijke documentatie.

3. programma

De hoorcolleges waren over het algemeen van hoge kwaliteit. Er was ook voldoende gelegenheid voor het stellen van vragen, en vanwege de verschillende achtergronden van de deelnemers werden de colleges regelmatig afgesloten met inhoudelijke discussies.

De kwaliteit van de practica was wisselend. Niet alle stafleden waren in staat de practica even adequaat te begeleiden en de instructies waren niet altijd even duidelijk. Het grootste technische probleem was de capaciteit van de server, die niet berekend was op twintig gelijktijdige gebruikers. Veel oefeningen konden niet worden afgerond door een gebrek aan achtergrondinformatie, door het crashen van systemen, en door bugs in de software. Niettemin was het mogelijk om een redelijk beeld te krijgen van de applicaties die men op het CRL in het dagelijkse werk gebruikt.

Op de inleidende eerste dag werd aandacht besteed aan de talrijke technische randvoorwaarden voor het ontwikkelen van NLP-applicaties. Het ging daarbij primair om de inbedding van zulke applicaties in de technische omgeving van besturingssystemen, programmeertalen en coderingsstandaarden. Men spreekt in dit verband van de "ecologie" van NLP-applicaties. Twee voorbeelden: (1) Het archief van een Arabische krant komt digitaal beschikbaar. Hoe kunnen uit dit corpus nieuwe woorden worden gezeefd, en hoe kunnen die woorden geïntegreerd worden in een lexicon dat eerder met een afwijkende codering van het Arabisch werd ontwikkeld? (2) Hoe ontwikkelt men een programma dat snel en correct bepaalt in welke taal een willekeurige tekst op het internet gesteld is?

Tijdens de twee morfologiedagen werd gedetailleerd ingegaan op lopende projecten voor het Perzisch, het Russisch, het Spaans, en het Turks. In alle gevallen ging het om morphological analyzers, applicaties die vanuit tekstuele input werken naar een morfeemanalyse. Afhankelijk van de behoefte bouwt men dergelijke applicaties ook wel om voor generatieve doeleinden. De applicaties worden als module ingepast in grotere NLP-systemen, waarbij meestal wordt gewerkt tussen de genoemde talen enerzijds en het Engels anderzijds. Voorbeelden van zulke grotere systemen zijn spelling-checkers, grammatica-checkers, machinevertalingen en programma’s voor automatische informatie-extractie (IE). Van het Perzische systeem is een demonstratiemodel op internet beschikbaar, op het adres "http://crl.nmsu.edu/Research/Projects/shiraz/demo/demo2.html".

Bijzondere aandacht werd besteed aan technieken die het mogelijk maken om degelijke analyzers met een kleine staf in zeer korte tijd te bouwen. Daarbij wordt gezocht naar een optimale balans tussen het volume van het lexicon van woordstammen en dat van de inventaris van flexiemorfemen. Zuiver linguïstische overwegingen zijn bij de ontwikkeling van deze applicaties vaak van ondergeschikt belang. Men zal bijvoorbeeld kiezen voor morfeemanalyses van het type t+ake, t+ook, t+aken wanneer daarmee programmeer-technisch winst kan worden geboekt.

Bij de bouw van systemen voor geautomatiseerde vertalingen (MT, machine translation) wordt doorgaans 60% tot 70% van het budget gereserveerd voor de ontwikkeling van lexica. Een van de opvallendste uitkomsten van het (meta-)onderzoek naar de eigen systeemontwikkeling is dat het sneller en goedkoper is om gedrukte woordenboeken met de hand over te typen dan om ze integraal te scannen en via optical character recognition (OCR) in digitale tekst om te zetten.

De "ontologische" aanpak via een semantische metataal (zie d. hieronder) wordt voor het lexicon expliciet verworpen. Er wordt dus niet gewerkt aan de ontwikkeling van een universele NLP-thesaurus waarop individuele taalmodules kunnen worden aangesloten. De opgegeven redenen zijn vooral budgettair: geen enkele opdrachtgever wil betalen voor oplossingen die verder reiken dan het opgegeven probleem.

Zelfs voor een enkele taal is de in het lexicon geïnvesteerde menskracht enorm. Om binnen een jaar een minimaal lexicon van 50.000 lemmata te bouwen dient men naast projectbegeleiders en secretariële ondersteuning te beschikken over een team van vijf studenten, liefst moedertaalsprekers, die eerst twee maanden training ontvangen en dan tien maanden uitsluitend lemmata invoeren. De studenten krijgen dagelijkse quota’s van te verwerken items. Zij mogen maximaal tien minuten aan elk lemma besteden, en de gebruikte invoersoftware maakt het onmogelijk om terug te komen op eenmaal ingevoerde gegevens. Het gebruik van naslagwerken wordt actief ontmoedigd. Meer uitgebreide lexica worden onder hetzelfde regime ontwikkeld en beslaan tot 200.000 lemmata.

Een aparte plaats wordt ingenomen door de problematiek van eigennamen, die voor MT-systemen relatief veel roet in het eten gooit. De oplossing wordt meestal gezocht in de ontwikkeling van lexica van eigennamen, onomastica, met name voor talen die geen morfologische of grafische codering van eigennamen kennen.

Met het oog op de inbedding van lexica in MT-systemen is het opvallend is dat zoveel mogelijk syntactische informatie naar het lexicon wordt gedirigeerd. De applicatie die zorg draagt voor de syntactische analyse is de parser. Voor zover ik heb kunnen nagaan functioneert de parser primair als coördinerend element tussen de lexicale en de morfologische modules.

Een "ontologie" is een semantisch model dat uitdrukkingen in menselijke talen omschrijft met behulp van semantische labels. De reikwijdte van het model is enerzijds kleiner, anderzijds groter dan in de niet-computionele semantiek.

Enerzijds stelt NLP zich namelijk nadrukkelijk niet ten doel het menselijk taalhandelen te modelleren. In principe wordt elke ad hoc oplossing geaccepteerd die bijdraagt tot een werkend computationeel systeem. Bovendien zijn NLP-toepassingen veelal beperkt tot een handvol talen. Tenslotte is soms sprake van een beperkt semantisch domein, zoals dat van spoorverbindingen in het geval van een sprekend spoorboekje.

Anderzijds beperkt de computationele semantiek zich niet tot het uitzoeken van theoretische mogelijkheden. Waar de traditionele semantiek kan volstaan met het constateren dat voor de uitdrukking vieze vlekkenalmanak de lezingen (a) ‘vieze almanak over vlekken’ en (b) ‘almanak over vieze vlekken’ syntactisch homoniem zijn, stelt NLP zich ook ten doel de meest waarschijnlijke variant in een gegeven context op te sporen. Deze discourse-gerichtheid is bijvoorbeeld van groot belang voor automatische informatie-ontsluiting (IE, information extraction, zie f. hieronder), maar ook voor MT.

Voor MT-applicaties gelden daarnaast de omstandigheden die ook voor menselijke vertalingen van belang zijn. Men is bijvoorbeeld weinig gebaat bij de theoretische kennis dat tä in het Mandarijn een algemene aanduiding van de derde persoon is: gegeven een tweede taal die meer onderscheiden in de derde persoon maakt (bijvoorbeeld geslacht, getal, inclusiviteit), gaat het er om deze extra informatie uit de Chinese tekst te putten.

De vraag dringt zich daarbij op hoe fijnmazig de semantische labels moeten zijn om NLP-toepassingen in de breedste zin te accomoderen. Hier ligt voor NLP een groot dilemma. Ondanks de sterke gerichtheid op individuele oplossingen binnen concrete toepassingen is men er zich terdege bewust van dat uitbreiding naar nieuwe talen en nieuwe semantische domeinen een universeel toepasbare semantische metataal vereist.

Men claimt overigens graag dat de tot nu toe ontwikkelde ontologieën al in hoge mate universeel en taal-neutraal zijn. In de praktijk blijkt de structuur van het model sterk door de semantiek van het Engels geïnspireerd te zijn. Er is wel de nodige aandacht voor sterk in het oog springende categorieën zoals tijd, aspect en eerbied, maar elders zijn de banden van de semantische labels erg klemmend. Dit geldt met name ook voor de indeling in woordsoorten. Vaak moeten nieuwe categorieën en betekenissen worden beschreven met behulp van bestaande labels, ook als dat tot nodeloze verwarring leidt. Het al dan niet toevoegen van een nieuw label in het ontologische systeem is elke keer een heet hangijzer. Hiërarchisch liggen deze kwesties bij de projectleiders, maar aan de genomen beslissingen lijken geen systematische semantische overwegingen ten grondslag te liggen. Ik vraag me af of met behulp van klassieke thesauri zoals die van Roget en Webster misschien betere resultaten te behalen waren geweest.

Overigens komen NLP-deskundigen er moeiteloos voor uit dat de semantiek een van de grote struikelblokken vormt voor linguistic engineering. Bij het uitvoeren van projecten is de aandacht voor de semantiek vrij gering, en er is relatief weinig over de computationele semantiek nagedacht en gepubliceerd. Ook binnen het hetzelfde project zijn onder de projectleiders grote verschillen in semantische benadering te constateren. Zo bestaat er verschil van opvatting over de mate waarin semantische kwesties in de lexicale, morfologische en syntactische modules moeten worden opgevangen. Verder zweren sommige onderzoekers bij de bovengenoemde "universele" ontologie, terwijl anderen per taal een set van niet-universele parameters aan de ontologie wil toevoegen.

Op het CRL is een groot onderzoeksproject in ontwikkeling voor het eliciteren bij informanten van taalgegevens in een vorm die geschikt is voor invoer in NLP-systemen. Het project wordt naar de Amerikaanse taalkundige Franz Boas (1858-1942) het Boas-project genoemd. Bij uiteindelijke oplevering moet het systeem geschikt zijn voor elke willekeurige taal. De geëliciteerde gegevens beslaan zowel het lexicon als de morfologie, de syntaxis en verschillende "ecologische" eigenschappen (zie a. hierboven).

Beslist baanbrekend is in dit project de ontwikkeling van een communicatiemodule die via het beeldscherm vragen stelt aan de informant. Vervolgvragen worden door het systeem steeds gegenereerd op basis van eerder gegeven antwoorden. Programmeer-technisch is deze module vrij complex, en de verdere ontwikkeling van dit onderdeel staat nog steeds hoog op de agenda.

De kwaliteit van het elicitatiesysteem is sterk afhankelijk van de mate waarin flexibiliteit kan worden ingebouwd voor het opvangen van grammaticale eigenaardigheden van talen waarvoor nog niet eerder NLP-systemen werden ontwikkeld. In dit opzicht is Boas op dit moment typologisch nog erg beperkt. In de computerpractica van de SSLE bleek dat cursisten die het elicitatiesysteem testten met "afwijkende" talen al snel voor grote problemen kwamen te staan. De testomgeving werd ook geplaagd door technische mankementen, wat opvallend was gezien de voorrang die computertechnische aspecten in de meeste CRL-projecten genieten.

Zoals gezegd (zie c. hierboven) wordt in NLP-systemen een parser vooral gevoed door de syntactische informatie die is verwerkt in de lexicale en morfologische modules. Er zijn geen modules die de syntactische relaties zelf semantisch duiden of statistisch analyseren. De genoemde keuze tussen vieze vlekkenalmanak (a) ‘vieze almanak over vlekken’ en (b) ‘almanak over vieze vlekken’ wordt vooral op statistische gronden gemaakt.

Daarbij spelen ook IE-systemen (information extraction systems) een belangrijke rol. IE is de geautomatiseerde verwerking van zoekvragen (queries) van het type "wie publiceerde er in Frankrijk voor 1964 over het verwerken van kernafval?". IE is een zeer groot vakgebied binnen NLP, onder andere vanwege de grote belangstelling van overheden. Veiligheidsdiensten hebben bijvoorbeeld vaak behoefte aan geautomatiseerde systemen om grote hoeveelheden tekstmateriaal snel te doorzoeken op relevante informatie. IE moet overigens niet verward worden met IR, information retrieval, waarbij de procedurele kant van de informatievergaring centraal staat. IR houdt zich met name bezig met de toegankelijkheid van het materiaal, zowel voor de machine als voor de menselijke lezer. Er wordt bijvoorbeeld veel onderzoek gedaan naar de effectiviteit van de wijze waarop de computer de output van zoekopdrachten op het scherm aan de menselijke gebruiker presenteert. Omgekeerd wordt veel aandacht besteed aan het gebruiksgemak aan de input-kant. Men ontwikkelt bijvoorbeeld IR-systemen die zoekvragen in alledaags Engels accepteren.

Tenslotte is het het vermelden waard dat de NLP-systemen die in het CRL tot nu toe zijn vervaardigd steeds deelsystemen zijn geweest. Het laboratorium heeft nog geen complete MT-systemen ontwikkeld.

4. werkwijze van het CRL

Het CRL concentreert zich op dit moment vrijwel volledig op tekstuele applicaties. In het verleden zijn er ook projecten uitgevoerd op het gebied van spraakherkenning en -productie. Het laboratorium heeft echter faam verworven met de analyse en generatie van digitaal tekstmateriaal, en daarnaar gaat momenteel bij externe sponsors de grootste belangstelling uit. Door de afhankelijkheid van externe gelden heeft het CRL grote expertise ontwikkeld in de snelle ontwikkeling van applicaties. Voor externe projecten vereist de financieringsstructuur namelijk de oplevering van een werkende model-applicatie binnen enkele maanden. De goede werking van het model is meestal een voorwaarde voor de toekenning van vervolgsubsidies.

Er vindt dan ook relatief veel meta-onderzoek plaats over de manier waarop voor willekeurige talen binnen korte tijd redelijk functionerende NLP-systemen kunnen worden ontwikkeld. Daarbij ligt de nadruk sterk op technische functionaliteit. Zo mag het systeem niet crashen, moet de verwerkingssnelheid hoog zijn, mag het programma niet haperen bij verse invoer, en moeten in- en uitvoermodi zo flexibel mogelijk worden ontworpen met het oog op inpassing in vervolgsystemen.

Gezien deze technische belangen is er in de eerste fase van systeemontwikkeling relatief weinig aandacht voor de kwaliteit van de analyse (bij lezende systemen) en van de gegeneerde taalbouwsels (bij schrijvende systemen). Wanneer bijvoorbeeld goede woordenboeken van een kleine taal alleen in gedrukte vorm voorhanden zijn, terwijl een inferieur lexicon van die taal wel digitaal beschikbaar is, dan zal in de regel uit tijdsoverwegingen voor het digitale lexicon worden gekozen. Gesteld voor het dilemma zelf iets nieuws samen te stellen of iets off the shelf van mindere kwaliteit toe te passen, kiest men meestal voor het laatste.

De praktijk leert verder dat het moeilijk is om in een later stadium een inhaalslag te plegen voor de kwaliteitsverbetering van de zuiver talige aspecten van NLP-systemen. Veel projecten bouwen uit kostenoverwegingen voort op een stramien dat in een eerder project werd ontwikkeld. Meestal is de ontwikkeling van een applicatie al in een vroeg stadium zo ver gevorderd dat een fundamentele kwaliteitsverbetering van analyse en/of generatie in technisch opzicht te gecompliceerd zou zijn. Ironisch genoeg leidt dit tot zeer nauwgezette processing van slordig geselecteerde gegevens.

5. NLP en de traditionele taalkunde

Uit het bovenstaande moge blijken dat de ontwikkeling van NLP uit kwalitatief oogpunt gebaat is bij nauwe samenwerking met taalkundigen. Veel "computational linguists" zijn feitelijk linguistic engineers. Juist in de beginperiode van een nieuw project ontbreekt het vaak aan tijd om een nieuwe visie op een nieuw probleem te ontwikkelen. Een goed voorbeeld daarvan is de geringe aandacht die in deze fase kan worden besteed aan de problematiek van woordsoorten in een nieuwe taal (zie d. hierboven). Een ander voorbeeld is de bewuste keuze om geen linguïsten te betrekken bij de opbouw van lexica. Linguïsten zijn te hoog opgeleid en dus te duur; daarom wordt dit werk meestal overgelaten aan graduate students die moedertaalsprekers zijn van de taal in kwestie. Meer in het algemeen zou de ontwikkeling van NLP gebaat zijn bij een gedegen semantische onderbouwing met voldoende aandacht voor de eigenaardigheden van individuele talen.

Overigens dringt de vraag zich op waarom niet meer tijd en geld wordt besteed aan vanuit taalkundig oogpunt voor de hand liggende maatregelen die de kwaliteit van NLP-systemen kunnen verbeteren. Waarschijnlijk speelt hierbij een rol dat de concurrentie het niet beduidend beter doet. Daarnaast dient te worden bedacht dat de huidige taalkundige traditie in het middelbaar en hoger onderwijs in Amerika weinig structurele aandacht geeft aan semantische kwesties.

Omgekeerd is de expertise van NLP-deskundigen van groot belang voor de taalkunde. De computersystemen zijn zo groot en specifiek dat taalkundigen die te maken hebben met een van de vele toepassingen van NLP weinig kunnen uitrichten zonder computationele experts.

Voor een succesvolle toepassing van NLP-technologieën in taalkundig doordachte projecten dienen linguistic engineers en taalkundigen te beschikken over een gedetailleerde taakverdeling en een uitstekend niveau van samenwerking. Meer uitwisseling tussen NLP en de traditionele taalkunde is van groot belang voor de ontwikkeling van beide vakgebieden.

6. adressen

postadres:

Computing Research Laboratory,

New Mexico State University

Box 30001/Dept. 3CRL

Las Cruces, NM 88003-8001

USA

gebruikte afkortingen

CRL	Computing Research Laboratory
IE	information extraction
IR	information retrieval
MT	machine translation
NLP	natural language processing
NMSU	New Mexico State University
OCR	optical character recognition
SSLE	Summer School in Language Engineering

HTML-versie 9 augustus 1999

home

dag	onderdeel
1	a. inleiding: coderingssystemen, niet-latijnse schriften, fonts, mark-up-talen, standaardisatieproblematiek
2 en 3	b. computationele morfologie
4 en 5	c. lexica en corpora
6 en 7	d. ontologieën: de rol van de semantiek in NLP
8 en 9	e. werken met informanten in multilinguale NLP-projecten
10	f. informatieverwerking en vertaalsystemen

verslag van ervaringen in de

Summerschool in Language Engineering

georganiseerd door het

Computing Research Laboratory,

New Mexico State University,

van 28 juni tot 9 juli 1999

Jeroen Wiedenhof

30 juli 1999

inhoud

0. achtergrond

1. organisatie en deelname

2. rooster

dag

onderdeel

1

a. inleiding: coderingssystemen, niet-latijnse schriften, fonts, mark-up-talen, standaardisatieproblematiek

2 en 3

b. computationele morfologie

4 en 5

c. lexica en corpora

6 en 7

d. ontologieën: de rol van de semantiek in NLP

8 en 9

e. werken met informanten in multilinguale NLP-projecten

10

f. informatieverwerking en vertaalsystemen

3. programma

4. werkwijze van het CRL

5. NLP en de traditionele taalkunde

6. adressen

gebruikte afkortingen

HTML-versie 9 augustus 1999