O projektu MultiDis

Višerazinski pristup govornom diskursu u jezičnom razvoju


Što je MultiDis?

MultiDis je znanstveno-istraživačka web-aplikacija razvijena na Edukacijsko-rehabilitacijskom fakultetu Sveučilišta u Zagrebu. Aplikacija omogućuje stručnjacima i istraživačima automatsku transkripciju govornih uzoraka, automatsku jezičnu analizu korištenjem NLP alata prilagođenih hrvatskom jeziku te izračun mjera jezične produktivnosti.

Cilj aplikacije je suvremene spoznaje o obradi, procjeni i označavanju jezika pretvoriti u praktičan alat u logopedskoj kliničkoj praksi i jezičnim istraživanjima.

Mogućnosti aplikacije

Automatska transkripcija

Pretvorba govornih audio zapisa u tekst s visokom razinom točnosti. Podržani formati: MP3, WAV, FLAC, OGG, M4A, AAC, WMA i Opus.

Prijenos transkripata

Ako već imate transkript, možete ga prenijeti u sustav i za njega izračunati jezične mjere. Podržani formati: DOCX, DOC, TXT, CEX i CHA (CLAN).

NLP analiza za hrvatski jezik

Automatska tokenizacija, lematizacija, POS označavanje i detekcija komunikacijskih jedinica (C-units) korištenjem modela Classla i BERTić prilagođenih hrvatskom jeziku.

Jezične mjere i usporedba

Izračun mjera jezične produktivnosti, rječničke raznolikosti i sintaktičke složenosti te usporedba s populacijskim normama iz naše baze podataka.

Projekti u okviru kojih je MultiDis razvijen

Aplikacija je nastala kao rezultat višegodišnjeg rada na nekoliko znanstvenih projekata provođenih na Odsjeku za logopediju Edukacijsko-rehabilitacijskog fakulteta, u suradnji s kolegama s drugih institucija:

Razdoblje Naziv projekta Financiranje
2018. – 2023. Višerazinski pristup govornom diskursu u jezičnom razvoju (MultiDis)
Voditeljica: Gordana Hržica | UIP-2017-05-6603
Hrvatska zaklada za znanost (HRZZ)
2020. – 2024. Feast and Famine: Confronting overabundance and defectivity in language
Voditelj: Neil Bermel | Voditeljice za Hrvatsku: Tomislava Bošnjak Botica i Gordana Hržica | AH/T002859/1
Arts and Humanities Research Council (AHRC), UK
2025. – 2026. Inflection Points: Designing Language Tools for Practitioners
Voditelj: Neil Bermel | Voditeljice za Hrvatsku: Tomislava Bošnjak Botica i Gordana Hržica
Arts and Humanities Research Council (AHRC), UK

Istraživačka grupa

  • Gordana Hržica voditeljica projekta
  • Tomislava Bošnjak Botica
  • Marina Čamber
  • Gordana Dobravac
  • Sara Košutar
  • Lucija Kuvačić
  • Eliana Moscarda Mirković
  • Marina Olujić Tomazin
  • Nada Poropat Jeletić
  • Ivana Trtanj

Znanstveni kontekst

Jezični korpusi i diskursne analize predstavljaju iznimno vrijedan izvor podataka o jeziku. Funkcionalistički pristup na diskurs gleda kao na jezik u uporabi s nizom pragmatičkih obilježja koji određuju tu uporabu: uvođenje teme, govorne izmjene, društveni kontekst u kojem se diskurs ostvaruje. Prema ovom pristupu, diskurs je više semantička jedinica nego gramatička — prijenos značenja putem diskursa važniji je od načina kako je to značenje gramatički oblikovano.

U okviru projekta MultiDis razvijeno je ili nadopunjeno nekoliko korpusa govornog jezika koji služe kao izvor za ekstrakciju podataka o riječima i strukturama te za stvaranje materijala za poticanje diskursne proizvodnje.

Tehničko okruženje

Aplikacija je izgrađena koristeći Django (Python web framework) i hostirana na Sveučilišnom računskom centru (Srce) u Zagrebu. NLP obrada koristi Classla (hrvatski NLP model) za tokenizaciju, lematizaciju i POS označavanje, te model BERTić prilagođen za detekciju komunikacijskih jedinica u hrvatskom jeziku.

Kontakt

Voditeljica projekta

izv. prof. dr. sc. Gordana Hržica
+385 1 245-7443
gordana.hrzica@erf.unizg.hr

Više informacija o projektu dostupno je na službenoj stranici: www.multidis.erf.hr