NIRANJAN, P. S.; SEHRAWAT, R.; KATKAR, A.; SHARMA, M.; SRIPADA, P. N.; PATIL, S. N. MULTIMODAL EMOTION RECOGNITION USING AUDIO-TEXT FUSION AND TRANSFORMER-BASED CONTEXTUAL REPRESENTATION LEARNING. ShodhKosh: Journal of Visual and Performing Arts, [S. l.], v. 7, n. 1s, p. 190–201, 2026. DOI: 10.29121/shodhkosh.v7.i1s.2026.7045. Disponível em: https://granthaalayahpublication.org/Arts-Journal/ShodhKosh/article/view/7045. Acesso em: 20 mar. 2026.