O projektu MultiDis
Višerazinski pristup govornom diskursu u jezičnom razvoju
Što je MultiDis?
MultiDis je znanstveno-istraživačka web-aplikacija razvijena na Edukacijsko-rehabilitacijskom fakultetu Sveučilišta u Zagrebu. Aplikacija omogućuje stručnjacima i istraživačima automatsku transkripciju govornih uzoraka, automatsku jezičnu analizu korištenjem NLP alata prilagođenih hrvatskom jeziku te izračun mjera jezične produktivnosti.
Cilj aplikacije je suvremene spoznaje o obradi, procjeni i označavanju jezika pretvoriti u praktičan alat u logopedskoj kliničkoj praksi i jezičnim istraživanjima.
Mogućnosti aplikacije
Automatska transkripcija
Pretvorba govornih audio zapisa u tekst s visokom razinom točnosti. Podržani formati: MP3, WAV, FLAC, OGG, M4A, AAC, WMA i Opus.
Prijenos transkripata
Ako već imate transkript, možete ga prenijeti u sustav i za njega izračunati jezične mjere. Podržani formati: DOCX, DOC, TXT, CEX i CHA (CLAN).
NLP analiza za hrvatski jezik
Automatska tokenizacija, lematizacija, POS označavanje i detekcija komunikacijskih jedinica (C-units) korištenjem modela Classla i BERTić prilagođenih hrvatskom jeziku.
Jezične mjere i usporedba
Izračun mjera jezične produktivnosti, rječničke raznolikosti i sintaktičke složenosti te usporedba s populacijskim normama iz naše baze podataka.
Projekti u okviru kojih je MultiDis razvijen
Aplikacija je nastala kao rezultat višegodišnjeg rada na nekoliko znanstvenih projekata provođenih na Odsjeku za logopediju Edukacijsko-rehabilitacijskog fakulteta, u suradnji s kolegama s drugih institucija:
| Razdoblje | Naziv projekta | Financiranje |
|---|---|---|
| 2018. – 2023. |
Višerazinski pristup govornom diskursu u jezičnom razvoju (MultiDis) Voditeljica: Gordana Hržica | UIP-2017-05-6603 |
Hrvatska zaklada za znanost (HRZZ) |
| 2020. – 2024. |
Feast and Famine: Confronting overabundance and defectivity in language Voditelj: Neil Bermel | Voditeljice za Hrvatsku: Tomislava Bošnjak Botica i Gordana Hržica | AH/T002859/1 |
Arts and Humanities Research Council (AHRC), UK |
| 2025. – 2026. |
Inflection Points: Designing Language Tools for Practitioners Voditelj: Neil Bermel | Voditeljice za Hrvatsku: Tomislava Bošnjak Botica i Gordana Hržica |
Arts and Humanities Research Council (AHRC), UK |
Istraživačka grupa
- Gordana Hržica voditeljica projekta
- Tomislava Bošnjak Botica
- Marina Čamber
- Gordana Dobravac
- Sara Košutar
- Lucija Kuvačić
- Eliana Moscarda Mirković
- Marina Olujić Tomazin
- Nada Poropat Jeletić
- Ivana Trtanj
Znanstveni kontekst
Jezični korpusi i diskursne analize predstavljaju iznimno vrijedan izvor podataka o jeziku. Funkcionalistički pristup na diskurs gleda kao na jezik u uporabi s nizom pragmatičkih obilježja koji određuju tu uporabu: uvođenje teme, govorne izmjene, društveni kontekst u kojem se diskurs ostvaruje. Prema ovom pristupu, diskurs je više semantička jedinica nego gramatička — prijenos značenja putem diskursa važniji je od načina kako je to značenje gramatički oblikovano.
U okviru projekta MultiDis razvijeno je ili nadopunjeno nekoliko korpusa govornog jezika koji služe kao izvor za ekstrakciju podataka o riječima i strukturama te za stvaranje materijala za poticanje diskursne proizvodnje.
Tehničko okruženje
Aplikacija je izgrađena koristeći Django (Python web framework) i hostirana na Sveučilišnom računskom centru (Srce) u Zagrebu. NLP obrada koristi Classla (hrvatski NLP model) za tokenizaciju, lematizaciju i POS označavanje, te model BERTić prilagođen za detekciju komunikacijskih jedinica u hrvatskom jeziku.
Kontakt
Voditeljica projekta
izv. prof. dr. sc. Gordana Hržica
+385 1 245-7443
gordana.hrzica@erf.unizg.hr
Razvoj aplikacije
Više informacija o projektu dostupno je na službenoj stranici: www.multidis.erf.hr