<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">2014-05-21 10:17 GMT+02:00 Julen Ruiz Aizpuru <span dir="ltr"><<a href="mailto:julenx@gmail.com" target="_blank">julenx@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">


Aupa!<br>


Firefox OSerako auto-zuzenketa eta auto-gomendioak gaitzeko bug bat<br>

zabaldu nuen [1] aurreko batean eta Kevin Scannel nekaezina laguntzeko<br>

prest agertu da.<br>


Weba corpus gisa hartuta, errepikapenen hitz-zerrenda bat sortuko luke<br>

euskararentzako. Hori egiteko galdera batzuk luzatu ditu ordea, hitzen<br>

bolumenari buruzkoak batez ere:<br>


"That said, Basque is morphologically very complex, and so no matter<br>

how big of a corpus I collect, there will be many words missing.  For<br>

example, the Xuxen spellchecker addon accepts hundreds of millions of<br>

words in total (so many it's hard to even estimate), but accepts<br>

86-87% of words in typical running texts.  Julen, any thoughts on<br>

this?  Would you be satisfied with a frequency list of say 1.5-2M<br>

words even if there are many gaps?<br>


Also, do you want me to only include words that the spellchecker<br>

accepts?   This is what I've done for other languages to avoid English<br>

or Spanish "pollution", but again this might leave out some important<br>

words.   I could also send you a list of the most frequent words not<br>

accepted by the spell checker and you could manually clean that list<br>

(and potentially add them to Xuxen)."<br>

Ni behintzat ez nago ohituta zenbaki hauekin lan egiten, beraz nahiago<br>

dut galdera dakienari delegatu. Aditurik salan? Igor, ideiarik bai?<br>

Bugeko eztabaidan sartzeko modurik bai?<br>


IXAkoei ere galdetuko diet, bide batez Xuxen hobetzeko ere balio lezake-eta.<br>

Julen.<br></blockquote><div><br></div><div>Telefonoan Xuxen-ek moduko lematizaziorik ezin bada egin eta formen maiztasunetan oinarrituta egin behar bada, formen zerrenda ahalik eta handiena izatea komeniko litzateke. Berak dioen pare bat milioi hitzeko zerrenda, nik ere ez dakit esaten asko edo gutxi den, euskarazko testuetako zein portzentaje ezagutuko litzatekeen horrekin.<br>


<br></div><div>Bestalde,  horretarako webeko testuak erabiltzea egokia iruditzen zait. Corpus "formalak" estandarrean idatzitako eta errebisatutako testuez osatuak izaten dira, eta mugikorretan sarritan erabiltzen den hizkera kolokial edo euskalkiko hitzak ez lirateke ezagutuko. Webeko corpus batetik, denak ez baina behintzat gehiago bai, pentsatzen dut.<br>


</div><div><br>Kevinek jaitsita duen euskarazko corpusa ia 18 milioi hitzekoa da [1], eta pentsatzen dut hortik aterako duela berak 1,5-2 milioi forma ezberdinen zerrenda. Nik Elhuyarren lanean eta nire tesirako ia 200 milioi hitzeko euskarazko corpusa jaitsita dut, eta bertako forma ezberdinak ia 4 milioi dira. Pentsatzen dut hortik formen maiztasunen zerrenda dezente luzeagoa aterako litzatekeela eta beraz zuzentzaile osoagoa (eta Kevini lana aurreztuko genioke).<br>


<br>Elhuyarren baimena eskatu beharko nuke maiztasunen zerrenda hori honetarako uzteko. Eta bug-eko eztabaidan sartu aurretik, hori ziurtatu nahiko nuke. Beraz, gure corpuseko maiztasunen zerrenda luzeago hori erabiltzea egokiago ikusten badugu, galdetuko nuke Elhuyarren eta baietza jasoz gero orduan sartuko nintzateke bug-eko eztabaidan (ez dut ezer eskaini nahi gero ezin bada).<br>


<br></div><div>Esango didazue. Ondo segi,<br></div><br></div><span style="color:black"></span><span style="color:black"></span>    Igor Leturia<br><br>[1] <a href="http://borel.slu.edu/crubadan/stadas.html" target="_blank">http://borel.slu.edu/crubadan/stadas.html</a><br>


</div></div>