[ML] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts (MMoE)

Title

Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

Summary

한눈에 보는 멀티태스크 학습과 MMoE (Multi-gate Mixture-of-Experts)

최근 인공지능 시스템은 하나의 모델로 여러 작업(태스크)을 동시에 처리하는 멀티태스크 학습 방법에 많은 관심이 쏠리고 있습니다. 예를 들어, 영화 추천 시스템에서는 사용자가 영화를 구매할지, 시청할지, 또는 좋아요를 누를지 같은 여러 목표를 한 모델로 예측할 수 있습니다. 그런데 이렇게 여러 작업을 함께 학습할 때 서로 다른 작업 간에 충돌이 일어나거나 학습이 어려워지는 문제가 발생할 수 있습니다. 이 문제를 해결하기 위해 구글 연구진 등에서 제안한 Multi-gate Mixture-of-Experts (MMoE) 모델은 각 작업마다 필요한 정보를 따로 선택해 학습할 수 있도록 도와줍니다.

전통적인 멀티태스크 학습 방식과 그 한계

많은 기존 멀티태스크 모델은 Shared-Bottom 구조를 사용합니다. Shared bottom 구조는 입력 데이터의 초기 부분(하단)은 모든 작업이 공유하고, 이후 각 작업별로 독립적인 네트워크(탑)를 쌓아 최종 결과를 예측합니다. 이 방식의 문제점은 모든 작업이 같은 하단 표현을 사용하다 보니, 서로 성격이 다른 작업이 충돌할 수 있습니다. 예를 들어, 영화 추천에서 “시청”과 “좋아요”는 비슷해 보일 수 있지만 실제로는 학습해야 하는 정보가 다를 수 있습니다.

Multi-gate Mixture-of-Experts (MMoE)의 특징

MMoE 모델은 크게 전문가(Expert)와 게이팅 네트워크 (Gating Network)로 구성되어 있습니다. 전문가는 여러 개의 작은 신경망으로 생각하면 됩니다. 각 전문가는 입력 데이터를 보고 특정한 패턴이나 특징을 잘 학습하도록 설계되어 있습니다. 이렇게 학습된 전문가 모델들을 입력 데이터를 보고 어떤 전문가 모델의 결과를 얼만큼 반영할지를 게이팅 네트워크가 결정합니다.

기존의 MoE 모델은 모든 작업이 한 개의 게이트를 공유하는 경우가 많았습니다. 그러나 MMoE는 작업마다 별도의 게이팅 네트워크를 둡니다. 이로 인해, “시청”과 “좋아요” 같은 서로 다른 작업이 자신에게 가장 적합한 전문가 조합을 선택할 수 있게 됩니다. 또한 선별적으로 전문가 모델을 활용하므로 작업의 목표에 맞게 효율적으로 scale하는 특징을 갖습니다.

이 구조는 각 작업마다 별도의 게이트가 있어 서로 다른 정보가 필요할 때 올바른 전문가 조합을 선택할 수 있습니다. 그리고 실험을 통해 Shared-Bottom 구조보다 converge를 더 잘하는 행태를 보였으며, 실서비스 성능 향상도 얻었습니다.

MMoE는 각 작업이 필요로 하는 정보를 따로 선택해 학습하는 방식으로, 기존 모델보다 더 유연하고 안정적인 성능을 보인다는 점에서 많은 관심을 받고 있습니다. 앞으로 다양한 분야에서 이와 같은 접근 방식이 어떻게 발전할지 기대해봅니다.