[Librezale] Common Voice proiektua esaldi biltzailearen zain gaude
Txopi
txopi a bildua ikusimakusi.eus
Ost, Urt 2, 18:55:00, CET 2019
Kaixo:
Abenduaren 18an Matrix taldean azaldu nuen baina ez nuen e-postarik
bidali. Orain zerrenda honetan ere esango dut :-)
5.000 esaldi behar genituen, eta Gorkak eta besteok idatzitakoekin +
Argiaren baimenarekin proiektu honetatik CC0 lizentziarekin
ateratakoekin (4.000 esaldi), guztira, 6.000 esaldi baino gehiago
dauzkagu eta Mozillari bidali genizkien:
https://github.com/mozilla/voice-web/pull/1704
Esaldi hauetako 200 inguru, IXA taldeak moldatuak dira, zenbakiak hitzez
irakurtzeko softwareren bat dutelako ikerketa proiektuetako corpusak
prestatzeko.
Baina noa harira. Kontua da, Common Voice proiektura hizkuntzak gehitzea
geldirik dagoela duela askotik esaldiak ondo formatuak daudela
ziurtatzeko Esaldi Biltzaile bat garatzen ari direlako. Tresna hori uda
osterako utzi zuten baina asko luzatzen ari da eta dagoeneko urtarrilean
gaude eta nahiko berde ikusten dut. Edonola ere, tresna hori prest izan
arte itxaroteko esan zigutela:
https://discourse.mozilla.org/t/basque-dataset-ready/34355
Beraz, oraingoz, ez dugu esaldi gehiagorik behar. Agian dauzkagunekin
nahiko eta sobera izango da. Baina esaldiak ezin baditugu gehitu
proiektura, ezin gara ahots grabaketak egiten hasi. Beraz, itxarotea
tokatzen zaigu.
Beno, lagundu nahi izanez gero, esaldi biltzaile hori garatzen lagundu
dezakegu. Garatzaile bezala (React + Kinto) edo probatzaile bezala
besterik ez.
https://discourse.mozilla.org/t/sentence-collection-tool-development-topic/33390/5
Amaitzeko, Osoitzek Matrixen aipatu zuen proiektu bat estekatu nahi dut:
https://code.fb.com/ai-research/wav2letter/
Proiektu honek ez du Mozillarekin inolako loturarik baina ahotsaren
ezagutzarekin zerikusia du eta agian norbaitek begirada bat bota nahiko
dio. Nire ustez, hizkuntza txikiek desabantaila asko dituzte hizkuntza
teknologietan eta batez ere ikasketa automatikoko proiektuetan,
kalitatezko datu-sortak behar direlako. Mozillaren Common Voicen
helburua datu-sorta libre pila bat sortzen laguntzea da eta ondoren
gainera, euskaraz ere ibiliko den motor bat garatzea, baina bilduko
ditugun ahots grabaketa horiek *guztien* eskura egongo dira eta horrek
euskara beste hainbat tresna eta proiektutan erabilgarri egoten
lagunduko du.
OHARRA: Common Voice webgunearen interfazea 100 %ean euskaratu nuen
baina kate berriak sartu dituztela ikusi dut. Berriro euskaratuko dut
dena esaldi biltzailea garatzen duten bitartean.
Ondo izan,
--
Txopi.
http://ikusimakusi.eus/
PGP public key: http://ikusimakusi.eus/pub/2016/txopi.asc
Fingerprint: 7CD9 E763 999C 85ED FB28 E5A0 0C80 F38E 0336 69EE
Librezale posta zerrendari buruzko
informazio gehiago