[Librezale] Euskarazko Wikipedia Common Voice-ko esaldien iturri

Txopi txopi a bildua ikusimakusi.eus
Or, Ira 6, 20:14:30, CEST 2019


Kaixo:

Lehenik eta behin albiste txarra: hemen irakurri dudanaren arabera, ondo
ulertu badut behintzat, euskarazko ahotsaren ezagutza profesionala
egiteko, uste baino esaldi gehiago behar direla konturatu dira:

  If we want to get to an initial 2,000 validated hours milestone for
  what we call a “minimum viable dataset”*, the math tells us that we’ll
  need at least 1.8M unique sentences (4s each on avg.) per language if
  we don’t want to have more than one recording on each one.

https://discourse.mozilla.org/t/extending-our-sentence-collection-capabilities/38783

Beraz, esaldi gehiago behar ditugu. Dauzkagun sei milak baino askoz
gehiago! 1.800.000 esaldi litzakete helburua. o.O

Hizkuntza guztietarako jabetza publikoan dauden hain esaldi kopuru
handia biltzea zaila denez, Wikipedia iturri bezala erabil daitekeen
aztertzen ibili dira Mozillakoak eta posible dela dirudi.

Legalki posible dela diote adituek artikulu bakoitzeko gehienez 3 esaldi
solte eta motz hartuko direlako eta denak nahastuta erabiliko direlako.
Informazio gehiagorako irakurri goiko estekako azalpenak eta baita
iruzkin hau ere:
https://discourse.mozilla.org/t/extending-our-sentence-collection-capabilities/38783/17

Teknikoki posible da hori egiteko tresna bat garatu dutelako:
https://discourse.mozilla.org/t/technical-feedback-needed-wikipedia-extractor-script-beta/42983

Thadah D. Denyse eta biok euskarazko Wikipediatik esaldiak lortzeko
probak egiten gabiltza eta hobekuntza asko egin badaitezke ere baliteke
orain daukagun esaldiak (6 mila) baino askoz gehiago lortzea bide
honetatik (50-100 mila, oraindik ezin jakin). Norbaitek programa
konfiguratzen eta hobetzen lagundu nahi izanez gero:
https://github.com/Thadah/common-voice-wiki-scraper

Tresna honen bitartez lortutako esaldien % 7a baino gutxiago zuzena
izatea lortzen badugu gure ekarpenak tresnan onartuko dituztela esan
digute Mozillakoek iruzkin honetan:
https://discourse.mozilla.org/t/technical-feedback-needed-wikipedia-extractor-script-beta/42983/23

Horretan ari gara baina litekeena da laster jende gehiagoren laguntza
behar izatea: hitzen zerrenda beltza zehazteko (atzerriko hizkuntzetako
izen pertsonalak), emaitzaren esaldi okerren ratioa egiaztatzeko
(benetan % 7a baino gutxiago dela)... Aurrerago esango dizuegu!

Tresna honen bitartez Euskarazko Wikipediatik kalitate nahikoko
esaldi-sorta bat sortzea lortzen dugunean, esaldi horiek Common Voicen
gehitzen utziko digutela suposatzen da.


1. OHARRA: ezin dut esan gabe utzi Espainiar LPI legearen 32. artikulua
irakurrita, Mozillaren talde legalak dioena egingarria den guztiz argi
geratu ez zaidala (baina beno, nik kontu hauetaz ez dakit askorik):
http://noticias.juridicas.com/base_datos/Admin/rdleg1-1996.l1t3.html#a32

2 OHARRA: Wikipediako edukiek linguistikoki dituzten ezaugarri batzuk
esaldi-sortaren erabilgarritasuna mugatuko ote duten zalantza batzuk ditut:
  - Wikipediako testuak 3. pertsonan daude eta suposatzen dut ni, gu, zu
eta zuek klabean dauden edukiak ere beharko genituzkeela (agian
ahotsaren ezagutzarako horrek ez du axola, ez dakit).
  - Wikipediako testuak neutroak dira, sentimenduen eta aldartearen
aipamenak adibidez inoiz egiten ez delarik. Erregistro oso apal bat
erabiltzen da bati, jendeak hitz egiten duenean erabiltzen dituen lexiko
(esajerazioak, harrokeriak, lagunarteko hitzak), intonazio (haserrea,
beldurra, dibertsioa) eta abarrak (agintera) agertzen ez delarik.
Iturri honen ezaugarriak burutzen ari garen proiekturako mugak direla
inork argitzerik balu, faltako ziren gauzak esaldi gehigarriekin
konpentsatzen saia gintezke. Inork ideiarik honetaz?

Ondo izan,

-- 
Txopi.
https://ikusimakusi.eus/
PGP public key: http://ikusimakusi.eus/pub/2016/txopi.asc
Fingerprint: 7CD9 E763 999C 85ED FB28 E5A0 0C80 F38E 0336 69EE


Librezale posta zerrendari buruzko informazio gehiago