올해의 튜링상, 강화학습의 원로들에게

2025-03-06 13:30
36
0
1
0
본문
두 명의 선구적인 컴퓨터 과학자는 강화 학습에 대한 공로로 2024년 튜링 어워드를 수상했습니다. 강화 학습은 기계가 제한적이거나 역동적인 환경에서 적응할 수 있는 보상 기반 시행착오 접근 방식을 통해 학습하는 학문입니다.
매사추세츠 애머스트 대학교의 명예 교수인 앤드류 G. 바토; 그리고 리처드 S. 앨버타 대학의 교수인 서튼은 1980년대부터 시작된 일련의 논문을 통해 핵심 알고리즘과 이론을 개발했다. 여기에는 시간 차이 학습이라는 강화 기술에 대한 작업이 포함됩니다. 듀오는 나중에 "Reinforcement: An Introduction"라는 학술 교과서를 출판했습니다.
최근 몇 년 동안 Google DeepMind가 세계 최고의 AlphaGo 플레이어를 물리친 AI를 구축하기 위해 기술을 사용한 후 강화 학습은 더 많은 관심을 받았습니다. 그리고 지난 몇 달 동안, 중국의 AI 신생 기업인 DeepSeek은 보다 비용 효율적인 기초 모델을 만들기 위해 강화 학습에 크게 의존한 판도를 바꾸는 R1 추론 모델로 헤드라인을 장식했습니다.


추천한 회원

댓글목록0