[Librezale] Proiektu berria: Common Voice

Txopi txopi a bildua ikusimakusi.eus
Lar, Urr 20, 12:38:33, CEST 2018


Kaixo:

* Zer

Azkenaldian Mozilla ahotsa eta ikasketa automatikoa (machine learning)
uztartzeko ikerketak egiten dihardu[1] eta *Common Voice*[2] izeneko
proiektu bat jarri du martxan. Proiektu honetako helburua jabetza
publikoan dauden testu batzuk pertsonek ahoskatzean grabatzea da. Common
Voice Mozillaren ekimen libre bat izanik, hainbat hizkuntzako kideak
jarri dira datu bilketa egiten. Hiztun asko dituzten hizkuntzez gain,
baita askoz txikiagoak ere. Adibidez, Katalana, Aragoiera eta baita
Asturiera ere.

Nire helburua, lagundu nahi duten Librezaleko kideekin batera, Common
Voicen euskara aurrera eramatea da. Horretarako, behar dugun lehengo
gauza CC0 lizentzia duen edo *jabetza publikoan dagoen liburu bat* da.
Euskara batuan dagoen eta digitalizatuta dagoen horrelako testu luzerik
ezagutzen du inork? Betekizunen inguruko zehaztasun gehiago beherago.

* Zergatik

Hau egitearen arrazoia zein den azaldu nahi dut. Izan ere, ahotsaren
ezagutzan dauden teknologia ezagunenak enpresa handien eskuetan daude
eta hauen joera teknologia pribatuak erabiltzea eta ahotsaren
prozesamendua beraien ostalarietan egitea baita. Datozen urteetan
teknologia hauek barra-barra zabaltzen badira (gailua ahotsez
kontrolatzea, gailuari testuak ahotsez diktatzea, gailuak informazioa
ahotsez ematea...), zerbitzu horiek ematen dituzten enpresak ia edozein
garapen egiteko ezinbestekoak bihurtuko lirateke. Eta gure gailuetan
kudeatzen ditugun are datu pribatu gehiago beraien eskuetatik pasako
lirateke.

Mozillako ikerketa taldeak, online STT (speech-to-text) teknologia
horien ordez *Pipsquake motorra* sortu nahi du, ikaskuntza sakoneko
(deep learning) offline STT motor bat, esparru honetan segurtasuna eta
pribatutasuna sustatuko dituena. Izan ere, librea izango da eta gaur
egungo gailuek duten prozesamendu gaitasunarekin, gailuetan bertan
exekutatu ahal izango da.

Mozillako ikerketa taldeak DeepSpeech eta TensorFlow tresna libreekin
egin dituen probekin, gailuetan bertan exekutatuko den STT motor guztiz
librearen arkitektura sortzen ari dira. Web Speech API estandarra ere
hor dago eta esan genezake, ondo ulertu baldin badut behintzat,
aipatutako helburua lortzeko behar diren piezak prest daudela eta ekimen
hau aurrera ateratzeko moduan dagoela.

Mozilla bere komunitateari eskatzen ari dena, datuak dira; beraien
ahotsa. Ingeleseko ahots grabaketa libreak biltzen hasi ziren eta gero
eta hizkuntza gehiago ari dira proiektuan sartzen.

* Nola

Gure hizkuntza, euskara, Common Voicen sartzeko, hiru gauza egin behar
ditugu[3]:
  1) Proiektuaren webgunea euskaratzea.
  2) Jabetza publikoan dauden testu egokiak biltzea.
  3) Testu horiek balioztatu eta birpasatu, datu-basean sar ditzaten.

Ondoren, webgunean agertuko lirateke eta euskarazko grabaketak egin eta
ebaluatu ahal izango ditugu guk eta lagundu nahi gaituen orok.

Webgunearen % 66a euskaratu dugu Julen Ruiz Aizpuruk eta biok eta
lagundu nahi duten guztiak ongi etorriak izango dira:
https://pontoon.mozilla.org/eu/common-voice/

Lan gogorrena momentu honetan testuak prestatzea da. Irakurri dudanaren
arabera, betekizun hauek bete behar dituzte[3][4][5]:
  - Jabetza publikoan dauden 5.000 bat esaldi.
  - 5-10 hitz dituzten esaldiak dira egokienak, portzentaje ez oso handi
bat hitz gutxiagokoa bada ez badu axola ere. Kontuan izan audio
grabaketak gehienez 10 segundokoak izango direla eta hitz gehiegi sartuz
gero jendeari ez diola dena grabatzeko denborarik emango.
  - Laburdurak eta zenbakiak hitzetara bihurtuta: 10.000 -> hamar mila;
etab. -> eta abar; 5. -> bosgarren.
  - Izen pertsonalak agertu behar dira: pertsonen izenak, kaleen izenak,
lekuak eta abar.
  - Hitzek errepikapen gutxi izatea.
  - Hiztegi aberatsa izatea.

Nire ustez, erreferentziazko testu bat lortuko bagenu, 30-40
orrialdekoa, euskara batuan idatzita dagoena eta jabetza publikoan
dagoena, Common Voicen betekizunak betetzen dituen testu bat prestatu
moduan egongo ginateke. Inork badu ideiarik?

Bestela zerotik abiatu beharko genuke eta horrek nire ustez lan eta
denbora gehiago eskatuko du. Beste aukera bat, norbaitek testu hori
jabetza publikoan ematea izango litzateke, asturierazko testuak
prestatzen ari diren kideek egingo dutela dioten bezala[6].

Librezaleko kide batzuk posta zerrenda honetan ez daudenez, gure txat
taldean galdera bera botako dut.

Norbaitek prestaketa lanetan laguntzeko interesa badu, esan diezadala!
Proiektu hau denboran gehiegi ez luzatzeko dinamizatzaile taldetxo bat
sortzea primeran legoke :-)

[1] https://research.mozilla.org/machine-learning/
[2] https://voice.mozilla.org/
[3]
https://discourse.mozilla.org/t/readme-how-to-see-my-language-on-common-voice/31530
[4]
https://discourse.mozilla.org/t/we-want-your-feedback-improving-the-sentence-collection/30358/3
[5] https://voice-sprint.mozilla.community/contributing/
[6] https://github.com/mozilla/voice-web/pull/1496

Ondo izan,

-- 
Txopi.
http://ikusimakusi.eus/
PGP public key: http://ikusimakusi.eus/pub/2016/txopi.asc
Fingerprint: 7CD9 E763 999C 85ED FB28 E5A0 0C80 F38E 0336 69EE


Librezale posta zerrendari buruzko informazio gehiago