[Librezale] [Firefox OS] auto-zuzenketa eta auto-gomendioak

Ost, Maiatza 21, 10:45:17, CEST 2014

2014-05-21 10:17 GMT+02:00 Julen Ruiz Aizpuru <julenx a bildua gmail.com>:

> Aupa!
> Firefox OSerako auto-zuzenketa eta auto-gomendioak gaitzeko bug bat
> zabaldu nuen [1] aurreko batean eta Kevin Scannel nekaezina laguntzeko
> prest agertu da.
> Weba corpus gisa hartuta, errepikapenen hitz-zerrenda bat sortuko luke
> euskararentzako. Hori egiteko galdera batzuk luzatu ditu ordea, hitzen
> bolumenari buruzkoak batez ere:
> "That said, Basque is morphologically very complex, and so no matter
> how big of a corpus I collect, there will be many words missing.  For
> example, the Xuxen spellchecker addon accepts hundreds of millions of
> words in total (so many it's hard to even estimate), but accepts
> 86-87% of words in typical running texts.  Julen, any thoughts on
> this?  Would you be satisfied with a frequency list of say 1.5-2M
> words even if there are many gaps?
> Also, do you want me to only include words that the spellchecker
> accepts?   This is what I've done for other languages to avoid English
> or Spanish "pollution", but again this might leave out some important
> words.   I could also send you a list of the most frequent words not
> accepted by the spell checker and you could manually clean that list
> (and potentially add them to Xuxen)."
> Ni behintzat ez nago ohituta zenbaki hauekin lan egiten, beraz nahiago
> dut galdera dakienari delegatu. Aditurik salan? Igor, ideiarik bai?
> Bugeko eztabaidan sartzeko modurik bai?
> IXAkoei ere galdetuko diet, bide batez Xuxen hobetzeko ere balio
> lezake-eta.
> Julen.
>

Telefonoan Xuxen-ek moduko lematizaziorik ezin bada egin eta formen
maiztasunetan oinarrituta egin behar bada, formen zerrenda ahalik eta
handiena izatea komeniko litzateke. Berak dioen pare bat milioi hitzeko
zerrenda, nik ere ez dakit esaten asko edo gutxi den, euskarazko testuetako
zein portzentaje ezagutuko litzatekeen horrekin.

Bestalde, horretarako webeko testuak erabiltzea egokia iruditzen zait.
Corpus "formalak" estandarrean idatzitako eta errebisatutako testuez
osatuak izaten dira, eta mugikorretan sarritan erabiltzen den hizkera
kolokial edo euskalkiko hitzak ez lirateke ezagutuko. Webeko corpus
batetik, denak ez baina behintzat gehiago bai, pentsatzen dut.

Kevinek jaitsita duen euskarazko corpusa ia 18 milioi hitzekoa da [1], eta
pentsatzen dut hortik aterako duela berak 1,5-2 milioi forma ezberdinen
zerrenda. Nik Elhuyarren lanean eta nire tesirako ia 200 milioi hitzeko
euskarazko corpusa jaitsita dut, eta bertako forma ezberdinak ia 4 milioi
dira. Pentsatzen dut hortik formen maiztasunen zerrenda dezente luzeagoa
aterako litzatekeela eta beraz zuzentzaile osoagoa (eta Kevini lana
aurreztuko genioke).

Elhuyarren baimena eskatu beharko nuke maiztasunen zerrenda hori honetarako
uzteko. Eta bug-eko eztabaidan sartu aurretik, hori ziurtatu nahiko nuke.
Beraz, gure corpuseko maiztasunen zerrenda luzeago hori erabiltzea egokiago
ikusten badugu, galdetuko nuke Elhuyarren eta baietza jasoz gero orduan
sartuko nintzateke bug-eko eztabaidan (ez dut ezer eskaini nahi gero ezin
bada).

Esango didazue. Ondo segi,

    Igor Leturia

[1] http://borel.slu.edu/crubadan/stadas.html
-------------- hurrengo zatia --------------
Erantsitako HTML dokumentu bat ezabatu egin da...
URL: <http://librezale.eus/pipermail/librezale/attachments/20140521/e175b471/attachment-0002.html>