[Librezale] Idatzizko esaldi gehiago behar ditugu Common Voicen

Txopi txopi a bildua ikusimakusi.eus
Iga, Api 5, 13:46:43, CEST 2020


Kaixo:

Aurreko mezu positibo bien ondoren, egia gordin pare bat botako ditut
orain. Izan ere, grabaketa gehiegi egin ditugu esaldi gutxiegirekin eta
gainera bildu berri ditugun esaldi guzti horiek baino askoz esaldi
gehiago behar ditugu. Nire burua azaltzen saiatuko naiz ondorengo lerroetan.

Common Voicen hizkuntza bat gehitu ahal izateko, 5.000 idatzizko esaldi
eskatzen zituzten eta guk sei mila lortu genituen Librezaleko kideok
idatzitakoak eta Argia aldizkariak lagatakoak batuz. Ondo, baina hori
hasteko gutxienekoa baino ez zen. Iaz ez zegoen bat ere argi zenbat
grabaketa egin ahal ziren esaldi horiek erabiliz eta duela aste batzuk
jakin dut dagoeneko egin ditugun grabaketa guztietarako esaldi gehiegi
edo, grabatu ditugula. Urtarrileko bidalketa honetan azaltzen du
Mozillako kide batek arrazoia ingelesez:
https://labur.eus/nZR4V

Hau da, batu genituen sei mila esaldiekin speech-to-text proiekturako 6
edo 7 ordu grabatzeko baino ez zigun ematen. Hortik aurrera grabatu
ditugunak, ez doaz zakarrontzira, inolaz ere, Deep spech proiektuko sare
neuronalerako erabilgarriak ez badira ere (euskara ulertzen duen
motorretako), Common Voiceri esker sortzen ari diren eta sortzen
jarraituko duten ikasketa automatikoko (machine learning) beste proiektu
batzuetarako erabilgarriak izango baitira. Beraz, lasai egon gaitezke.
Baina speech-to-text proiektuari dagokionez eraginkorrak izan nahi
badugu, askoz idatzizko esaldi gehiago behar ditugu.

Orain 61.000 esaldi biltzea lortu dugu (6.000 + 55.000) eta horrek
hainbat grabaketa ordu berri egiteko aukera ematen digu. Orain arte
grabatu ditugunak sei mila horietan zentratu direnez, esango nuke
dauzkagun esaldi berriekin, 61 ordu berri grabatu ditzakegula (55.000 /
9.000 * 10 = 61 ordu). Hau da, orri honetan 160 grabaketa ordura heldu
baino lehen, idatzizko esaldi gehiago lortu beharko genituzke:
https://voice.mozilla.org/eu/datasets

Kopuru horretatik pasatzen bagara berriro, euskarari laguntzen
jarraituko dugu baina ez proiektu hau sortu zen emaitza lortzeko
helburuaren alde (euskara ulertzen duen speech-to-text motorra), baizik
eta zeharkako beste helburu batzuen alde.

Beraz, laburbilduz, nire kalkuluak zuzenak badira, oso adi ibili behar
dugu eta zezenak berriro arrapatu orduko idatzizko esaldi-sorta berriak
lortu.

Argiarekin berriz hitz egin genezake, azken finean beraien materialaren
zati bat baino ez genuen erabili aurrekoan. Baina esaldiak ateratzeko
prozesu automatikoago bat beharko genuke, aurrekoan nik egin bainuen
dena eta lan gehiegi da pertsona bakarrarentzat. Agian Wikipedia
Extractor bera erabil liteke prozesua arintzeko? Aztertu behar litzateke
nola...

Jabetza publikoan ez dauden baina proiektu honetan parte hartzeko prest
egon litezkeen bete iturri batzuk ere lortzen/lotzen saia gintezke.
Inork ideiarik? Inork kontakturik?

Ondo izan,

-- 
Txopi.
https://ikusimakusi.eus/
PGP public key: http://ikusimakusi.eus/pub/2016/txopi.asc
Fingerprint: 7CD9 E763 999C 85ED FB28 E5A0 0C80 F38E 0336 69EE


Librezale posta zerrendari buruzko informazio gehiago