[Librezale] Wikipediako 55.000 esaldi berri Common Voicen

Txopi txopi a bildua ikusimakusi.eus
Iga, Api 5, 12:54:54, CEST 2020


Kaixo:

Aurreratu nuen bezala, azken hilabeteetan Euskarazko Wikipediatik
esaldiak ateratzeko lanetan jardun dugu Librezaleko hainbat kide. Ez
ditut denak zerrendatuko, badakizue nortzuk zareten :-)

Kontua da lanak bere fruituak eman dituela eta orain bertan, Common
Voicen sartuz gero, euskarazko esaldi berri mordoa agertzen dela ikusiko
duzue:
https://voice.mozilla.org/eu/

Wikipediak CC BY-SA lizentzia du baina Mozilla fundazioko atal legalak
Mozilla fundazioarekin harremanetan ondorioztatu zuen bezala, artikulu
bakoitzeko gehienez hiru esaldi hartuz gero eta denak testuingururik
gabe ausaz ordenatuta bilduz gero, ez da lizentziarik urratzen.
Espainiako LPI legeak adibidez, badakit norabide berean doan artikulu
bat duela:
https://labur.eus/jVC6G

Mozilla fundazioak, hizkuntza desberdinei esaldiak biltzen laguntzeko
Wikipedia Extractor izeneko software bat garatu du eta hori da guk
erabili duguna Euskarazko Wikipediatik esaldiak ateratzeko:
https://labur.eus/Z0qQm

Arazo batzuk izan ditugu gure esaldiak onartuak izateko, tresna horrek
ez baitzen aproposena euskararenak bezalako ezaugarriak dituen hizkuntza
batetik esaldi egokiak antzemateko (atzizkiak direla, aditzaren
deklinabidea dela, zerrenda beltza hitz zuzenez betetzen zitzaigun),
baina lanaren zati bat eskuz egin genuen eta Librezalen lortu dugun 3.
esaldi-sorta ederra lortu dugu, orain arteko handiena:
https://librezale.eus/wiki/CommonVoice#Euskarazko_datu-sorta

Mozillak eta laguntzaileek Wikipedia Extractor hobetzen jarraitzen dute
baina guk ez dugu prozesu horretan laguntzeko asmorik, indar nahikorik
ez dugulako:
https://discourse.mozilla.org/t/sentence-extraction-now-automated/56092

Beraz, orain Common Voice webgunera esaldiak grabatzera bazoazte, esaldi
berri andana proposatuko zaizue. Hori, kalitatezko speech-to-text motor
bat sortzeko ezinbestekoa da eta horregatik hau albiste bikaina dela
iruditzen zait.

Eskerrik asko esaldi-sorta hau lortzeko lagundu duzuen guztioi. Txataren
bitartez koordinatu dugun talde-lan aparta izan da. ZORIONAK!

Orain, nola ez, idatzizko esaldi berri guzti horiek ahots desberdinekin
egindako grabaketez bete behar ditugu. Animo horretan ere!

OHARRA: hemengo norbait Euskarazko Wikipedia elkarteko edo komunitateko
kidea bada, albiste honen berri ematea eskertzekoa litzateke. Bestela,
nola helarazi bilatu beharko dugu, azken finean, 3. esaldi sorta hau
errealitate bat bada, batez ere, Euskarazko Wikipediako kide guztiek
urteetan zehar egindako lan bikainari esker da. Eskerrik beroenak!

Zer egingo dugu orain? Common Voicen parte hartzeko deialdi berri bat
egingo dugu? Librezaleko blogean artikulu bat? Sare sozialetan zabaldu?
Laguntzeko eskaintza oro guztiz ongi etorria izango da!

Ondo izan,

-- 
Txopi.
https://ikusimakusi.eus/
PGP public key: http://ikusimakusi.eus/pub/2016/txopi.asc
Fingerprint: 7CD9 E763 999C 85ED FB28 E5A0 0C80 F38E 0336 69EE


Librezale posta zerrendari buruzko informazio gehiago