Szerző: Németh László, 2010. 03. 04.
Caolan MacNamara (Red Hat) teljes jogú adminisztrátorként csatlakozott a Hunspell helyesírás-ellenőrző/morfológiai elemző fejlesztéséhez (eddig is az egyik legaktívabb együttműködő volt a Hunspell javítások, foltok beküldésével). Miután a CVS verziókezelő rendszer alá helyezte a kódot a múlt héten, egy tucat foltot integrált. Ennek örömére még három fagyást, illetve kvázi lefagyást okozó problémát javítottam. Az eredmény a Hunspell 1.2.9-es változata.
A CVS-ben közben frissült a kód, a Hunspell saját fejlesztői változatából áttettem a MAP javaslattevő algoritmus bővítését. Ebben a MAP ekvivalenciaosztályokba most már nem csak karaktereket, hanem karaktersorozatokat is meg lehet adni egyszerű zárójelezéssel. A magyar szótárban a MAP eddig csak az ékezetesítésre szolgált. Az affixumállományban található MAP definíciót a következő sorral bővítve a j és ly is egy osztályba kerül:
MAP j(ly)
A régi helyesírási javaslatok a hűjéje szóra:
& hűjéje 9 0: hűjére, hűjébe, hájéje, hajéje, héjéje, Hrabjéje, hűbérije, hűbére, hűdése
Az újak:
& hűjéje 3 0: hülyéje, hűjére, hűjébe
Ékezet nélküli szó javításánál még feltűnőbb a különbség:
Az előző változattal:
& hujeje 4 0: Huetje, hejehuja, Hummerje, Höveje
Most:
& hujeje 1 0: hülyéje
A fejlesztés eredetileg a többszörös ékezetes betűket tartalmazó nyelvek, mint a vietnami vagy a joruba számára készült, lehetőséget nyújtva a több UTF-8 karakterrel leírt betűk (pl. mint az ó alatt még pontot is tartalmazó joruba ọ́) MAP osztályokba sorolására is (de a német ß/ss, vagy a fi/fi ligatúrát tartalmazó szavak kezelésére is jó).