[Librezale] Common Voice EAB eta Kultura Saila

Txopi txopi a bildua ikusimakusi.eus
Al, Maiatza 3, 21:57:43, CEST 2021


21/5/3 11:58(e)an, Joxan Garaialde , Librezale-en bidez igorleak idatzi
zuen:
> 2021/5/3 11:02(e)an, Gorka Azkarate Zubiaur , Librezale-en bidez
> igorleak idatzi zuen:
>> Kaixo:
>>
>> EAEko Kultura Sailak STT motor bat, ahotsa testura transkribatzeko
>> euskarazko motor bat, sortzeko egitasmoa oso interesgarritzat jotzea
>> normala da. Kontrakoa izango litzateke kezkagarria, horrelako proiektu
>> batez paso egitea.
>>
>> Egitasmo hori Txopiren lidergoarekin abiatu zen, Librezale taldekide
>> batzuen laguntza izan zuen, baina helmugaraino iristeko eta etorkizun
>> hurbil batean kalitatezko STT motor bat egoteko, laguntza guztiak
>> eskertu beharko.
>>
>> Ez dakit EAEko Kultura Sailak zer proposatuko duen, pertsona bat
>> proiektua sustatzeko kontratatzea, enpresa bati enkargua egitea...
>>
>> Librezale taldeko edonor libre da, jakina, horrelako lanpostu batera
>> aurkezteko, eta Txopik onartuko ez duen lanpostua onartzeko. Librezale
>> taldekide batek onartuko balu lan hori, kontratu peko lana izango
>> litzateke, ez Librezale taldekide baten lana. Horrelakorik, nik
>> dakidala, lehenago ere gertatu zen, eta taldeak pozik hartu zuen
>> pertsona batek taldeak boluntarioki egiten zuena kontratu pean egiten
>> hastea. Baina pertsona horrek egiten zuena bere ardura pean egiten
>> zuen, kontratu pean, eta, beraz, lan hori ez zen Librezale taldearen
>> lana, pertsona horrena edo berak sortutako enpresarena baizik.
>>
>> Librezale taldea boluntarioz osatuta dago eta lan boluntarioa egiteko
>> sortu zen. Eta EAEko edo Nafarroako Gobernuko Kultura Sailakoak
>> horretan ere ibiltzea, edo ez ibiltzea, Librezale taldearen
>> ahalmenetatik kanpo geratzen da.
>>
>> Pertsona bakar batek, astean 35 orduz-edo liberatuta, asko bultza
>> dezake Common Voice bezalako proiektu bat. Agian Librezale taldeko
>> boluntario guztiek beste. Ardura hori hartuko duen pertsonaren
>> arabera, eta bere uneko egoeraren arabera...
>>
>> EAEko Kultura Sailakoek egingo dutena edo egingo ez dutenarekin
>> gehiegi kezkatu barik, Librezale taldeak Common Voice proiektua
>> sustatzen segitzea espero dut. Nik, hirugarren errenkadatik, zerbait
>> egiterik badut, laguntzen saiatuko naiz. Esaldi bakar batzuk grabatzen
>> edo balioesten besterik ez bada ere.
>>
>> Ondo izan,
>>
>> Gorka Azk.
>
> Gaia dela eta, ni ere prest nengoke Gorkak e-posta honetako azken
> paragrafoan dioenaren bidetik laguntzeko: "Nik, hirugarren errenkadatik,
> zerbait egiterik badut, laguntzen saiatuko naiz. Esaldi bakar batzuk
> grabatzen edo balioesten besterik ez bada ere".
>
> Ongi izan.
>
> Joxan Garaialde
>

Kaixo:

Eskerrik asko bioi eskaintzagatik. Hirugarren lerroan bada ere denon
ekarpenek gehitzen dute! :-)

Badaezpada, gauza bat argitu nahi dut. Kultura Sailak Common Voice
lagunduko balu, CC0 lizentziadun esaldi-sortaren bilketan izango zen eta
herritarrak grabaketak egiten animatzen. Datu horiekin Mozillak sortu
nahi duen Deep Speech STT motor librean ez zen sartuko, nik behintzat ez
dut inorekin hitz egin aukera horretaz. AEBk proposatuko duena EJk datu
bilketan laguntzea izango da, izan ere hori ere bada Common Voice
proiektuaren helburua.

Euskaraz dakien STT motor libre bat (edo gehiago) lortzea nola edo hala
helduko den zerbait dela uste dut, baina denbora gehiago beharko da
horretarako lehenik eta behin datu andana behar delako eta ez dago atzo
azaltzen saiatu nintzen balizko proiektu horren barruan. Gauza batek
zeharka agian beste lagunduko luke, baina auskalo.

Bida batez, atzo ahaztu zitzaidan aipatzea nik dakidanaren arabera STT
ereduak progresiboak direla, hau da datu gutxirekin hitz sorta txikiak
desberdintzeko ereduak trebatu daitezke (ez/bai,
zero/bat/bi.../bederatzi, eta abar) eta datu askorekin sorta handiagoak.
Beraz, ez da dena 2.000 ordu lortzen ditugunean edo ezer ez bitartean,
baizik eta zenbat eta grabaketa gehiago balioztatu eta ereduak
trebatzeko erabili, orduan eta erabilgarriagoak/jeneralistagoak diren
ereduak lortzen direla. Hori da behintzat nik ulertuta daukadana.
Hizkuntza-teknologietan nik baino gehiago dakien norbaitek (ez da bat
ere zaila arlo honetan nik baino gehiago jakitea!), azalpena baieztatu
edo osatu badezake, aurrera mesedez :-)

Ondo izan,
Txopi.


Librezale posta zerrendari buruzko informazio gehiago