01 / 01
Architecture buro

News

News

su UniTrento MAG

su UniTrento MAG

Segmentazione, analisi e trascrizione della voce parlata

una sfida interdisciplinare per le scienze e la musica

La grande potenzialità comunicativa del linguaggio parlato deriva dalla possibilità di investire di significato complesse combinazioni di elementi morfologicamente caratteristici estratti da un lessico e organizzati secondo una sintassi, ma non solo. La possibilità di assegnare un senso alle parole che ascoltiamo poggia anche sulla nostra capacità di utilizzare la dimensione prosodica del parlato, ossia la capacità di convertire le variazioni nell’altezza, nell’intensità e nel timbro della voce in indicazioni utili per conoscere meglio le intenzioni, la personalità, l’umore e le emozioni di chi parla.

Negli ultimi decenni lo studio dell’intonazione, del ritmo della voce parlata ha largamente superato i tradizionali confini della linguistica e rappresenta oggi un campo di primaria importanza nelle applicazioni speech-to-text, nella sintesi della voce, nello studio dei processi emotivi e nella prosodia dell’oratoria. Anche i compositori di musica si sono interessati per secoli alla voce parlata e alla sua relazione con il canto, la poesia, la narrazione, ma solo dalla seconda metà del novecento hanno cominciato ad avere a disposizione i mezzi tecnologici necessari per indagarne concretamente le grandi potenzialità musicali. A fronte di un ventaglio così ampio di interessi alcune questioni metodologiche e tecniche rimangono centrali e ancora lontane dall’essere risolte del tutto.

Una prima difficoltà è legata all’intonazione della voce, generalmente associata alla variazione della frequenza fondamentale dello spettro delle vocali. La variazione dell’intonazione è una dimensione prosodica cardinale perché contribuisce ad una messa in rilevo di sillabe, parole ed enunciati governata sia da ragioni grammaticali specifiche per ogni lingua, sia da ragioni espressive largamente condivise fra i parlanti di lingue diverse. Tecnicamente, l’estrazione del profilo intonativo di una voce parlata è un’operazione dagli esiti non sempre del tutto prevedibili, soprattutto nel caso di un segnale vocale alterato dalla presenza di rumori o da una forte riverberazione. Per cercare di superare queste difficoltà sono stati sviluppati diversi algoritmi basati sulla possibilità di scomporre e analizzare il segnale vocale nel dominio del tempo e in quello della frequenza, ma la spinta verso la ricerca della soluzione ideale è lungi dall’essersi esaurita.

Anche immaginando di poter estrarre automaticamente e in modo del tutto affidabile il profilo intonativo di una voce parlata, per poter comprendere e utilizzare le grandi potenzialità della prosodia sono necessari dei modelli in grado di analizzare e replicare fenomeni fonatori propri di lingue diverse parlate da soggetti animati da intenti espressivi anch’essi diversi. In questo ambito i modelli attualmente utilizzati da società come Google, Microsoft e Apple utilizzano approcci statistici basati su un apprendimento automatico da enormi banche dati integrato da sistemi di regole derivati dalle molte conoscenze acquisite nella linguistica moderna. Il limite di questi approcci sta nella loro finalità: se si risolve il problema di ottenere una voce sintetica “naturale” al pari di quella umana non è necessario comprendere esplicitamente il modo in cui il problema viene risolto.

I modelli alternativi, basati interamente su regole, non riescono ad eguagliare la naturalezza delle attuali voci sintetiche e l’efficienza degli approcci statistici. In compenso consentono una sempre più efficace ottimizzazione dei dati necessari ad una rappresentazione percettivamente puntuale delle caratteristiche prosodiche del parlato. In questo contesto alcune rappresentazioni, come il “Prosogram” proposto dal linguista Piet Mertens nel 2004, ci ricordano quanto sottile sia il confine fra le componenti prosodiche del discorso parlato e le dimensioni musicali rappresentabili per mezzo della notazione musicale. Nella seconda metà del settecento lo scrittore e studioso inglese, Joshua Steele, aveva già descritto un metodo per trascrivere le variazioni prosodiche utilizzando un sorta di partitura musicale. Nel 1918 il compositore Leóš Janáček affermava che “la melodia della parola è come una ninfea le cui radici scendono nel fondo dell’anima”. Oggi ci ritroviamo a domandarci se gli evidenti e intrecciati fili rossi che legano la voce parlata alla musica non possano essere meglio svelati da una cooperazione fra la musica e le altre discipline del sapere.

Fabio Cifariello Ciardi, luglio 2018

Iscriviti alla newsletter

Edison Studio - Privacy policy © EdisonStudio 2020.
All Rights Reserved.