<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">Julen Ruiz Aizpuru<span dir="ltr"><<a href="mailto:julenx@gmail.com" target="_blank">julenx@gmail.com</a>></span> igorleak hau idatzi zuen (2014(e)ko maiatzak 21 11:00):<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Igor Leturia<<a href="mailto:ileturia@gmail.com">ileturia@gmail.com</a>> igorleak hau idatzi zuen (2014(e)ko
maiatzak 21 10:45):<br>
<div class="">> 2014-05-21 10:17 GMT+02:00 Julen Ruiz Aizpuru <<a href="mailto:julenx@gmail.com">julenx@gmail.com</a>>:<br>
> Telefonoan Xuxen-ek moduko lematizaziorik ezin bada egin eta formen<br>
> maiztasunetan oinarrituta egin behar bada, formen zerrenda ahalik eta<br>
> handiena izatea komeniko litzateke. Berak dioen pare bat milioi hitzeko<br>
> zerrenda, nik ere ez dakit esaten asko edo gutxi den, euskarazko testuetako<br>
> zein portzentaje ezagutuko litzatekeen horrekin.<br>
> Bestalde, horretarako webeko testuak erabiltzea egokia iruditzen zait.<br>
> Corpus "formalak" estandarrean idatzitako eta errebisatutako testuez osatuak<br>
> izaten dira, eta mugikorretan sarritan erabiltzen den hizkera kolokial edo<br>
> euskalkiko hitzak ez lirateke ezagutuko. Webeko corpus batetik, denak ez<br>
> baina behintzat gehiago bai, pentsatzen dut.<br>
> Kevinek jaitsita duen euskarazko corpusa ia 18 milioi hitzekoa da [1], eta<br>
> pentsatzen dut hortik aterako duela berak 1,5-2 milioi forma ezberdinen<br>
> zerrenda. Nik Elhuyarren lanean eta nire tesirako ia 200 milioi hitzeko<br>
> euskarazko corpusa jaitsita dut, eta bertako forma ezberdinak ia 4 milioi<br>
> dira. Pentsatzen dut hortik formen maiztasunen zerrenda dezente luzeagoa<br>
> aterako litzatekeela eta beraz zuzentzaile osoagoa (eta Kevini lana<br>
> aurreztuko genioke).<br>
> Elhuyarren baimena eskatu beharko nuke maiztasunen zerrenda hori honetarako<br>
> uzteko. Eta bug-eko eztabaidan sartu aurretik, hori ziurtatu nahiko nuke.<br>
> Beraz, gure corpuseko maiztasunen zerrenda luzeago hori erabiltzea egokiago<br>
> ikusten badugu, galdetuko nuke Elhuyarren eta baietza jasoz gero orduan<br>
> sartuko nintzateke bug-eko eztabaidan (ez dut ezer eskaini nahi gero ezin<br>
> bada).<br>
<br>
</div>Primeran Igor! Diozunak itxura ona du.<br>
Bitartean inpresioak osatze aldera Iñaki Alegriari ere luzatu diot galdera.<br>
Informazio gehiagoren zain geratuko gara, beraz.<br>
Eskerrik asko!<br>
<span class="HOEnZb"><font color="#888888">Julen.<br></font></span></blockquote><div><br></div><div>OK. Iritzi edo informazio gehiago izatean, egoki ikusten bada, esan eta galdetuko dut Elhuyarren ea erabil dezakegun.<br>
</div></div><br><span style="color:black"></span><span style="color:black"></span> Igor Leturia<br>
</div></div>