CommonVoice

Librezale.eus(e)tik
Hona jo: nabigazioa, bilatu

MozillaCommonVoice-logoa.png

Mozilla Common Voice

Proiektuari buruz

80px-Berdea.png


Zer da Common Voice?

Common Voice, Mozillaren ekimenaren parte da eta bere helburua hizketaren ezagutzaren teknologiak hobeak eta guztientzat irisgarriagoak egitea da.

Hizketaren ezagutzaren teknologia, makinekin elkar eragiteko dugun moduan iraultza ekartzen ari da, baina egun erabilgarri dauden sistemak garestiak eta jabedunak dira. Common Voice dohaintzan emandako ahots grabaketa-sorta erraldoia da, edonori ahalbidetu diezaiokeena, potentzialki edozein hizkuntzan, ahotsa erabiltzen duten app-ak modu azkar eta erraz batean trebatzea.

Ez gara ari hizkuntza zabalduenetan bakarrik ahots grabaketak biltzen, baizik eta hiztun gutxiago dituztenetan ere bai. Mota askotako ahotsez osatutako datu-sorta bat argitaratuz, garatzaile, ekintzaile eta komunitateei existitzen den hutsune hori betetzeko ahaldundu nahi ditugu. Common Voice datu-sortaz gain, Deep Speech izena duen hizketaren ezagutza motor libre bat ere sortzen ari gara.

Zergatik da garrantzitsua?

Ahotsa gure artean komunikatzeko dugun modurik naturalena da eta ahots teknologiek gaitasun hori gure ordenagailu eta sakelakoek izatea lortzen ari dira. Garatzaileak hizketaren ezagutza aplikazio txundigarriak sortzeko ahaldundu nahi ditugu, denbora errealeko itzultzaileak edo ahots bidezko asistente digitalak bezala. Baina oraintxe bertan, era honetako app-ak sortzeko behar diren ahots-datuak garestiak eta jabedunak dira. Common Voice datu-sortarekin, berritzaileak izateko eta ahots teknologiak beraien hizkuntzetan eskuragarri jartzeko garatzaileek behar dutena ematea espero dugu.

Galdera eta erantzun gehiago.

Euskarazko datu-sorta

Proiektuaren helburua lortzeko ataza nagusiak:

1. Jabetza publikoan dauden esaldiak bildu (Eginda)
Helburua, gutxienez 5.000 esaldi biltzea da, baldintza zehatz batzuk bete behar dituztenak.
Dagoeneko, 6.000 baino gehiago bildu eta prestatu ditugu (hauetatik 3.900 esaldi, Argia aldizkariak egindako dohaintzari esker).
2. Bildutako esaldiak garbitu, berrikusi eta egiaztatu (Eginda)
Honetarako, Sentence Collector deritzon tresna garatzen ari gara.
3. Webgunea euskaratu (Eginda)
Honetarako, Mozillako Pontoon plataforma erabiltzen dugu.
4. Ahots grabaketak egin (Egiten!)
Helburua, hizkuntza bakoitzean 10.000 ordu grabatzea da. Hala ere, Mozillak Deep Speech bitartez sortuko duen Pipsquake motorrak 2.000 ordu baino ez ditu beharko.
Honetarako, webguneko "Hitz egin" aukera erabili. Animatu, oso erraza da!
5. Ahots grabaketak baliozkotu (Egiten!)
Helburua, grabaketa bakoitza bizpahiru pertsonak baliozkotzea da.
Honetarako, webguneko "Entzun" aukera erabili. Animatu, oso erraza da!

Eskerrak

Proiektu hau handia eta konplexua da eta lan desberdinak aurrera ateratzeko hainbaten laguntza jasotzen ari gara, besteak beste, Argia aldizkaria, iametza, Euskal Herriko Unibertsitateko Ixa taldea, Elhuyar fundazioa, Aholab, Garabide eta abar. Eskerrak beraiei eta baita zuen ahotsarekin Common Voice euskaraz errealitate bihurtzen ari zareten euskaldun guztioi!

Maila internazionalean, goraipatzekoa da munduan zehar dauden Mozillako kide eta lagun guztiek egiten ari diren lan eskerga. Eskerrik asko!

Deskargatu

Deskargatu Common Voiceko datuak.

Lotutako orriak