• Viện Tiến tiến về Kỹ thuật và Công Nghệ (AVITECH)

  • Xê-mi-na khoa học

    January 11, 2024: Dr. Le Duc Trong (FIT-UET) Resilient Multimodal Learning for Multimodal Emotion Recognition in the Presence of Incomplete Modalities

    Multimodal Emotion Recognition in Conversation (Multimodal ERC) is a critical area of research for interpreting human communication in diverse applications. Nevertheless, the persistent issue of uncertain missing modalities poses a major hurdle, hampering the development of robust Multimodal ERC models. Existing approaches face limitations in effectively leveraging a fusion of diverse data modalities encompassing audio, visual, and text concurrently. First, they assume only one modality can be missing, overlooking scenarios where multiple modalities may be absent simultaneously. Additionally, the deep semantic interactions between modalities at the feature level have not been thoroughly explored. To address these challenges, this paper proposes a novel framework, Mi-CGA, tailored for incomplete multimodal learning in conversational contexts. The backbone component, i.e., Cross-modal Graph Attention Network (CGA-Net), is to extract rich information from conversational graphs in the context of incomplete modality. It consists of three key modules: reconstruction of missing data with Modality Feature Estimation, improving data understanding with the Graph Attention Network, and enhancing cross-modal relationships with the Cross-modal Attention Network, leading to better multimodal emotion recognition performance. Extensive experiments on benchmark datasets consistently demonstrate that Mi-CGA outperforms several representative baseline models, marking a significant advancement in Multimodal ERC.

    Speaker: Dr. Le Duc Trong, FIT-UET

    Time: 15:00, Thursday, January 11, 2024

    Venue: Room 405 E3

    speaker
    Dr. Duc-Trong Le is currently the Deputy Head of Computer Science department, Faculty of Information Technology (FIT), University of Engineering and Technology, Vietnam National University, Hanoi (VNU-UET). He received the Bachelor in IT from (VNU-UET) in 2011 and earned his Ph.D. in Information Systems from Singapore Management University, Singapore, in 2019. His research interests include Web/Text Mining, Recommendation Systems, Multimodal Learning and Reliable AI. He is the author, and co-author of more than 20 scientific articles that appeared in top-tier conferences such as IJCAI, AAAI, EMNLP, ACM MM, COLING, ECML-PKDD. He is also serving as Reviewer for AI conferences namely IJCAI, AAAI, and Q1 journals including TKDE, TKDD, TITS, NEUCOM. Additionally, he is the principal investigator or researcher in various AI research projects on Reliable AI (QG23.37), Medical AI (KC4.0-40\19-25), Environmental AI (VinIF.2023.DA019) and Behavioral AI (VinIF.2022.DA0087). More details about his research and teaching works are available at https://sites.google.com/view/trongld
    This seminar is jointly organized with the Department of Computer Science, the Institute for Artificial Intelligence, and the Human-Machine Interface Laboratory, VNU University of Engineering and Technology.

    Cùng chuyên mục

    11/04/2024: TS. Đặng Trần Bình (Bộ môn Khoa học máy tính), Tương tác giữa thông tin chủ đề và Thông tin ngữ cảnh cho việc biểu diễn văn bản

    Trong hầu hết các ứng dụng, việc hiểu và biểu diễn văn bản luôn đóng vai trò quan trọng, đặc biệt là trong xử lý tự động. Cùng với các đặc điểm bề mặt của từ, thông tin về chủ đề rất có ý nghĩa và cần thiết để cung cấp ý nghĩa ngữ cảnh […]

    11/04/2024: PGS.TS. Hoàng Văn Xiêm (Bộ môn Kỹ thuật Robot), Tương tác Người – Robot: Thách thức và cách tiếp cận mới

    Công nghệ Robot đã và đang đóng vai trò quan trọng việc định hình sự phát triển của cuộc cách mạng công nghiệp 4.0. Cùng với trí tuệ nhân tạo – AI, công nghệ Robot mang lại nhiều cải tiến cho lĩnh vực tự động hóa nói riêng và các hoạt động phát triển kinh […]

    07/03/2024: Nguyễn Văn Phi (Viện Trí tuệ nhân tạo), Mô hình tạo sinh cho dữ liệu y tế

    Một trong những vấn đề lớn của xử lý ảnh y tế là việc thiếu hụt dữ liệu gắn nhãn do chi phí, thời gian và sự sai lệch trong nhãn của các chuyên gia. Mô hình phân tán (Diffusion models) có khả năng sinh dữ liệu một cách chân thực bằng cách mô phỏng […]