
            ispell-fi: Suomen kielen oikaisulukusanasto ispellille
                                       
Versio 0.7 (30. elokuuta 2000)

   
    Martin Vermeer <mv@liisa.pp.fi> ja
    Pauli Virtanen <pauli.virtanen@saunalahti.fi>
    
     _________________________________________________________________
   
   Tm projekti pyrkii saamaan aikaan sanasto- ja affiksitiedostot,
   jotka mahdollistavat suomenkielisten asiakirjojen oikaisuluvun
   ispellill.
   
   Sek sanasto- ett affiksitiedostot levitetn Free Software
   Foundationin GNU General Public Licensen version 2 ehtojen alaisina.
   (Ks. tiedosto COPYING).
   ______________________________________________________________________
   
Nykyinen tila

   Tmn ispellin oikaisulukusanaston pitisi kattaa noin 90%-99%
   yleisist suomen kielen sanoista.
   
   Sanasto on kyttkelpoinen, ja sen pitisi olla mys suhteellisen
   virheetn. (Ks. Viat.)
   ______________________________________________________________________
   
Sanaston kolme eri kokoa

   Sanastosta on kolme erikokoista versiota: pieni, keskisuuri ja suuri.
   Nm eroavat toisistaan vain muodostettujen sanojen taivutusmuotojen
   mrn osalta. (Katso tilastotietoja tiedostosta CHANGELOG.)
   
   Pieni versio tunnistaa 756588 sanaa, ja vaatii levytilaa 2,7 megaa.
   Muistia ispell kuluttaa sen kanssa noin 5 megaa, joten sen pitisi
   toimia mys pienitehoisilla koneilla.
   
   Keskisuuri versio tunnistaa 889302 sanaa, ja vaatii levytilaa 5,3
   megaa. Muistia ispell kuluttaa sen kanssa noin 10 megaa. Tt sanastoa
   suositellaan kytettvksi.
   
   Suuri versio tunnistaa 6678677 sanaa, ja vaatii levytilaa 9,0 megaa.
   Muistia ispell kuluttaa sen kanssa huimat 19 megaa, joten tmn
   sanaston kyttminen saattaa olla hieman kyseenalaista.
   ______________________________________________________________________
   
Asennusohjeet

   Voit hakea nm tiedostot osoitteesta
   ftp://ispell-fi.sourceforge.net/pub/ispell-fi/.
    1. Hae tiedosto finnish.dict.bz2
    2. Lisksi hae jokin seuraavista affiksitiedostoista
          + Pieni versio: finnish.small.aff.bz2
          + Keskisuuri versio: finnish.medium.aff.bz2 (suositeltu)
          + Suuri versio: finnish.large.aff.bz2
       
   Seuraavaksi joko
    3. Hae tiedosto build.sh
    4. Aja komento "sh build.sh <koko>" hakemistossa, jossa tiedostot
       ovat. (Koko on joko small, medium tai large.)
    5. Kopioi luotu finnish.hash-tiedosto hakemistoon /usr/lib/ispell/
       (Tai sinne, miss ispellin <kieli>.hash -tiedostot ovat.)
       
   tai
    3. Pura hakemasi tiedostot bzip2-ohjelmalla.
    4. Aja "buildhash finnish.dict <affiksitiedosto> finnish.hash", jossa
       <affiksitiedosto> on purkamasi affiksitiedoston nimi. l vlit
       mahdollisista ilmestyvist varoituksista. Kaiken pitisi toimia
       kunnolla niist huolimatta.
    5. Kopioi luotu finnish.hash-tiedosto hakemistoon /usr/lib/ispell/
       (Tai sinne, miss ispellin <kieli>.hash -tiedostot ovat.)
       
   Ispellin pitisi nyt pysty oikolukemaan suomenkielist teksti.
   ______________________________________________________________________
   
Viat

   Osa maiden (ja paikkojen) nimist on edelleen sanastossa pienell
   alkukirjaimella. Lisksi paikkojen, maiden ja kielten nimien osuus ei
   ole viel kovin kattava.
   
   Sanasto sislt luullakseni melko paljon harvinaisia sanoja, sek
   joidenkin erikoisalojen (lingvistiikka, atk) termej. Ne saattavat
   hidastaa ispellin toimintaa, vied turhaa levytilaa ja muistia. En
   kuitenkaan tied, kuinka kannattavaa niiden poistaminen sanastosta on.
   (Tylst se varmastikin on.)
   
   Sanastossa on mys jonkin verran lyhenteit, jotka saattavat aiheuttaa
   virheellisten sanojen hyvksymisen.
   ______________________________________________________________________
   
Auttaminen

   Lissanalistat ovat tervetulleita, varsinkin jos ne ovat sek laajoja
   ett virheettmi (ja vapaasti listtviss thn GNU GPL-lisenssin
   mukaisesti levitettvn pakettiin).
   
   On mys avuksi, jos ilmoitat tmn sanaston tekijille, kun ispell
   hyvksyy selkesti vrin kirjoitetun sanan. Muista kuitenkin
   tarkistaa ensin, ett ongelma on tosiaankin tss sanastossa eik
   henkilkohtaisessa sanastossasi (joka on yleens tiedostossa
   ~/.ispell_finnish).
   ______________________________________________________________________
   
Sanaston lhteet

     * Martin Vermeerin kirjoittama alkuperinen sanasto (versiossa 0.1,
       ja aikaisemmin).
     * Internetist osoitteesta
       ftp://ftp.uu.net:/doc/dictionaries/Finnish haettu sanasto. Se
       sislt kuitenkin paljon kirjoitusvirheit ja vain pieni
       kirjaimia, joten se tarvitsi paljon oikaisulukemista
       (oikolukuohjelmalla ja silmin), ennen kuin se voitiin ottaa
       kyttn.
     * Melko paljon sanoja ~/.ispell_finnish -tiedostosta.
     * 200 suomen yleisint sanaa (Suomen Taajuussanakirjan mukaan.)
   ______________________________________________________________________
   
Affiksitiedostojen lhteet

   Nm affiksitiedostot perustuvat Martin Vermeerin kirjoittamaan
   affiksitiedostoon (joka oli versiossa 0.1, ja aikaisemmin). Lisksi
   suureksi avuksi on ollut kirja Finnish grammar. Fred Karlsson (1983),
   Werner Sderstrm Oy, Juva. sek mys sen suomenkielinen versio Suomen
   Peruskielioppi.
   
   Tll hetkell affiksitiedostot ovat osittain automaattisesti
   generoituja genfisuffix-ohjelmalla. Jos olet utelias, niin voit hakea
   lhdekoodin osoitteesta
   ftp://ispell-fi.sourceforge.net/pub/ispell-fi/genfisuffix/genfisuffix
   -0.7.tar.bz2.
   ______________________________________________________________________
   
