« Vissza a bloghoz

Hunspell 1.2.9

Szerző: Németh László, 2010. 03. 04.


Caolan MacNamara (Red Hat) teljes jogú adminisztrátorként csatlakozott a Hunspell helyesírás-ellenőrző/morfológiai elemző fejlesztéséhez (eddig is az egyik legaktívabb együttműködő volt a Hunspell javítások, foltok beküldésével). Miután a CVS verziókezelő rendszer alá helyezte a kódot a múlt héten, egy tucat foltot integrált. Ennek örömére még három fagyást, illetve kvázi lefagyást okozó problémát javítottam. Az eredmény a Hunspell 1.2.9-es változata.

A CVS-ben közben frissült a kód, a Hunspell saját fejlesztői változatából áttettem a MAP javaslattevő algoritmus bővítését. Ebben a MAP ekvivalenciaosztályokba most már nem csak karaktereket, hanem karaktersorozatokat is meg lehet adni egyszerű zárójelezéssel. A magyar szótárban a MAP eddig csak az ékezetesítésre szolgált. Az affixumállományban található MAP definíciót a következő sorral bővítve a j és ly is egy osztályba kerül:

MAP j(ly)

A régi helyesírási javaslatok a hűjéje szóra:

& hűjéje 9 0: hűjére, hűjébe, hájéje, hajéje, héjéje, Hrabjéje, hűbérije, hűbére, hűdése

Az újak:

& hűjéje 3 0: hülyéje, hűjére, hűjébe

Ékezet nélküli szó javításánál még feltűnőbb a különbség:

Az előző változattal:

& hujeje 4 0: Huetje, hejehuja, Hummerje, Höveje

Most:

& hujeje 1 0: hülyéje

A fejlesztés eredetileg a többszörös ékezetes betűket tartalmazó nyelvek, mint a vietnami vagy a joruba számára készült, lehetőséget nyújtva a több UTF-8 karakterrel leírt betűk (pl. mint az ó alatt még pontot is tartalmazó joruba ọ́) MAP osztályokba sorolására is (de a német ß/ss, vagy a fi/fi ligatúrát tartalmazó szavak kezelésére is jó).