Niranjan, P. S., R. Sehrawat, A. Katkar, M. Sharma, P. N. Sripada, and S. N. Patil. “MULTIMODAL EMOTION RECOGNITION USING AUDIO-TEXT FUSION AND TRANSFORMER-BASED CONTEXTUAL REPRESENTATION LEARNING”. ShodhKosh: Journal of Visual and Performing Arts, vol. 7, no. 1s, Feb. 2026, pp. 190-01, doi:10.29121/shodhkosh.v7.i1s.2026.7045.