본문 바로가기

머신러닝3

OpenAI 오픈 웨이트 모델 공개 gpt-oss-120b, gpt-oss-20b 지난 몇 년간 OpenAI는 뛰어난 성능의 GPT 모델들을 내놓았지만, 연구자와 개발자 입장에서 가장 아쉬웠던 부분은 폐쇄적인 정책이었습니다. GPT‑4 계열 모델의 정확도와 정렬 능력은 놀라웠지만, 우리는 그것이 어떻게 동작하는지, 어떤 아키텍처 설계를 택했는지, 그리고 파인튜닝이 가능한지 알 방법이 없었습니다.그러나 2025년 8월, 그 흐름이 바뀌기 시작했습니다. OpenAI는 gpt-oss-120b와 gpt-oss-20b 두 개의 모델을 Apache 2.0 라이선스로 공개했습니다. 이는 단순한 오픈 모델 그 이상이며, 실질적인 LLM 생태계 전환점이라고 판단합니다.1. 모델 구조와 학습 전략: Mixture-of-Experts의 실전 적용아키텍처 요약모델 이름총 파라미터활성 파라미터Expert 수.. 2025. 8. 8.
[PDF] 머신러닝 인터뷰 정리 노트 (ML technical interview prep. note) 인공지능, 머신러닝 관련 기술 포지션의 면접을 위해 정리한 ML technical interview prep. note를 공유합니다.기본적인 ML concepts들을 리마인드하기 위해 컨셉들을 정리한 문서입니다. Source: https://github.com/dongchankim-io/MLInterviewNotes/releases/ 2025. 7. 28.
[ML] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts (MMoE) TitleModeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-ExpertsLinkshttps://dl.acm.org/doi/10.1145/3219819.3220007Summary한눈에 보는 멀티태스크 학습과 MMoE (Multi-gate Mixture-of-Experts)최근 인공지능 시스템은 하나의 모델로 여러 작업(태스크)을 동시에 처리하는 멀티태스크 학습 방법에 많은 관심이 쏠리고 있습니다. 예를 들어, 영화 추천 시스템에서는 사용자가 영화를 구매할지, 시청할지, 또는 좋아요를 누를지 같은 여러 목표를 한 모델로 예측할 수 있습니다. 그런데 이렇게 여러 작업을 함께 학습할 때 서로 다른 작업 간에 충돌이 일어나거.. 2025. 2. 22.