LLM

LLM

[DeepSeek 2024] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

오랜만에 굉장히 설레는 논문 포스팅인 것 같다. 이 논문 이전에는 아무래도 미국 빅테크들의 LLM들만 주목받았었다면, DeepSeek가 R1을 공개하고 나서는 중국의 LLM 연구가 우수하다는 것을 전 세계에 알린 기점이 되었다고 생각한다. 실제로 엔비디아와 같은 주식이 폭락하기도 했고, 나 역시도 이 소식을 듣고 "진짜 중국이 이 정도로...?" 하면서 출시 당시 논문을 슬쩍 보기도 했었다. 실제로 순수 RL을 이용한 LLM incentivization은, 당시 RLHF가 최신 트렌드였던 업계에서 breakthrough가 되었다고 생각할 뿐만 아니라 강화학습의 활용성에 대해서도 다시 생각해보게 된 계기가 되었던 것 같다. 다들 참 대단하다. 나도 저런 연구자가 되고 싶다..ㅠ Main Contrib..

LLM

[NeurIPS] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

오늘은 RAG 기술에 대해서 다뤄보도록 하겠다. 모두들 기억하고 있겠지만, 정말 얼마 안된, 몇 년 전까지만 해도 LLM은 가장 큰 문제인 Hallucination에 직면하고 있었다. 사실 지금도 RAG와 같은 최신 기술(?)들을 follow-up 하지 않는, 비-테크 회사에서는 종종 LLM 관련하여 hallucination이 생길 경우 자료 정리를 어떻게 할 것인지 이런 질문들을 하기도 한다고 들었던 것 같다. 이제 그런 걱정은 없고, 학계에서도 Hallucination 관련한 내용을 거의 언급하지 않는 듯하다. 이는 모두 Facebook AI Research (FAIR) 에서 발표한 RAG(Retrieval-Augmented Generation) 논문 덕분이다. RAG의 직관적 이해 기존의 언어 ..

LLM

[OpenAI 2020] Scaling Laws for Neural Language Models

오늘은 현재 "Large" language model의 핵심 이론적 토대가 된, LLM의 Scaling Law에 대해서 간단히 짚고 넘어가보려고 한다. 이전까지는 LLM이라기보다는 LM 수준이었고, 이 Scaling law 원칙을 바탕으로 GPT-3등 본격적인 거대 언어 모델의 시대로 넘어간다고 해도 과언이 아닐 것이다. N, D, C and Power Laws 위의 차트는 LM task에서 performance를 결정짓는 변수들에 대한 것이며, 각 변수를 증가시킬 때마다 test loss가 어떻게 반응하는 지를 보여주는 그래프이다. 파라미터 수 (N): 성능은 비임베딩 파라미터(non-embedding parameters) 수에 가장 깨끗하게 반응한다.데이터셋 크기 (D): 충분한 모델 크기가 ..

ShinyJay
'LLM' 카테고리의 글 목록