Niranjan, P. S., Sehrawat, R., Katkar, A., Sharma, M., Sripada, P. N., & Patil, S. N. (2026). MULTIMODAL EMOTION RECOGNITION USING AUDIO-TEXT FUSION AND TRANSFORMER-BASED CONTEXTUAL REPRESENTATION LEARNING. ShodhKosh: Journal of Visual and Performing Arts, 7(1s), 190–201. https://doi.org/10.29121/shodhkosh.v7.i1s.2026.7045