[Librezale] [Firefox OS] auto-zuzenketa eta auto-gomendioak

Julen Ruiz Aizpuru julenx a bildua gmail.com
Ost, Maiatza 21, 11:00:43, CEST 2014


Igor Leturia<ileturia a bildua gmail.com> igorleak hau idatzi zuen (2014(e)ko
maiatzak 21 10:45):
> 2014-05-21 10:17 GMT+02:00 Julen Ruiz Aizpuru <julenx a bildua gmail.com>:
>
>
> Telefonoan Xuxen-ek moduko lematizaziorik ezin bada egin eta formen
> maiztasunetan oinarrituta egin behar bada, formen zerrenda ahalik eta
> handiena izatea komeniko litzateke. Berak dioen pare bat milioi hitzeko
> zerrenda, nik ere ez dakit esaten asko edo gutxi den, euskarazko testuetako
> zein portzentaje ezagutuko litzatekeen horrekin.
>
> Bestalde, horretarako webeko testuak erabiltzea egokia iruditzen zait.
> Corpus "formalak" estandarrean idatzitako eta errebisatutako testuez osatuak
> izaten dira, eta mugikorretan sarritan erabiltzen den hizkera kolokial edo
> euskalkiko hitzak ez lirateke ezagutuko. Webeko corpus batetik, denak ez
> baina behintzat gehiago bai, pentsatzen dut.
>
> Kevinek jaitsita duen euskarazko corpusa ia 18 milioi hitzekoa da [1], eta
> pentsatzen dut hortik aterako duela berak 1,5-2 milioi forma ezberdinen
> zerrenda. Nik Elhuyarren lanean eta nire tesirako ia 200 milioi hitzeko
> euskarazko corpusa jaitsita dut, eta bertako forma ezberdinak ia 4 milioi
> dira. Pentsatzen dut hortik formen maiztasunen zerrenda dezente luzeagoa
> aterako litzatekeela eta beraz zuzentzaile osoagoa (eta Kevini lana
> aurreztuko genioke).
>
> Elhuyarren baimena eskatu beharko nuke maiztasunen zerrenda hori honetarako
> uzteko. Eta bug-eko eztabaidan sartu aurretik, hori ziurtatu nahiko nuke.
> Beraz, gure corpuseko maiztasunen zerrenda luzeago hori erabiltzea egokiago
> ikusten badugu, galdetuko nuke Elhuyarren eta baietza jasoz gero orduan
> sartuko nintzateke bug-eko eztabaidan (ez dut ezer eskaini nahi gero ezin
> bada).


Primeran Igor! Diozunak itxura ona du.

Bitartean inpresioak osatze aldera Iņaki Alegriari ere luzatu diot galdera.

Informazio gehiagoren zain geratuko gara, beraz.

Eskerrik asko!
Julen.



Librezale posta zerrendari buruzko informazio gehiago