본문 바로가기
경영 · 경제/경제 신문 스크랩

"특정 업무에 최적"… AI 소형언어모델 뜬다

by 민트린 2024. 4. 26.
728x90

헤드라인 "특정 업무에 최적"… AI 소형언어모델 뜬다


대형모델 추론비용 부담에
특정영역 겨냥 소형모델 붐
MS '파이-3 미니' 출시
"비용 10분의 1로 낮춰"
구글·메타 빅테크 속속 공개
네이버 등 국내업체도 출격
기사 링크 https://n.news.naver.com/mnews/article/009/0005293430?sid=105
본문
마이크로소프트(MS)가 파라미터가 38억개에 불과한 소형언어모델(sLM)을 전격 출시했다. 파라미터는 인간 두뇌 시냅스에 해당해 많으면 많을수록 인공지능(AI) 성능이 우수하다는 견해가 지배적이었다. 하지만 대형언어모델(LLM)은 학습·추론하는 데 막대한 비용과 전력이 투입되다 보니 AI 업계가 '더 작지만 더 강한' 모델 구축을 서두르는 장면이다.

23일(현지시간) MS'파이-3(Phi-3) 미니'를 공개했다. 챗GPT 근간이 되는 오픈AI GPT-3.5의 파라미터가 1750억개인 점과 비교할 때 크기가 약 50분의 1에 불과한 셈이다. 그동안 파라미터가 수십억 개에 불과한 LLM소형대규모언어모델(sLLM)이라고 불렀는데, MS는 이번 파이-3 미니를 sLM이라고 명명했다. "가장 작고 강하다"는 것을 전면에 내세운 것이다. MS는 파라미터 70억개의 '파이-3 스몰'과 140억개의 '파이-3 미디엄'을 내놓을 예정이다.

파이-3 미니는 언어, 추리, 코딩 등 다양한 능력을 갖추고 있다. 특히 작지만 12만8000개 토큰을 입력할 수 있다. 대략 A4 64쪽 분량이다. 보고서 등을 업로드하고 질의응답을 할 수 있다. 루이스 바가스 MS AI담당 부사장은 "어떤 고객은 작은 모델만 필요할 수도 있고, 어떤 고객은 큰 모델이 필요할 수도 있다"면서 "특히 작은 모델은 클라우드에 설치되지 않고 디바이스인 에지에서 작동되기 때문에 지연 시간을 최소화하고 프라이버시를 극대화할 수 있다"고 강조했다. 파이3-미니는 파라미터 수가 2배 많은 모델보다 대다수 지표에서 우수했다고 덧붙였다. 또 비슷한 기능을 가진 다른 모델과 비교해 추론 비용이 10분의 1 수준이라고 강조했다.

하이퍼클로바X를 전면에 내세운 네이버는 sLLM을 포함한 다양한 버전의 모델 출시를 준비 중이다. 하이퍼클로바X sLLM은 네이버클라우드의 AI 플랫폼인 '클로바 스튜디오'에 탑재될 예정이다. 페이스북 운영사인 메타는 라마3 sLLM 2종을 공개해 주목받았다. 파라미터 80억개, 700억개의 두 개 버전이다.

특히 메타는 라마3를 누구나 내려받아 사용할 수 있는 오픈소스로 공개했다. 오픈AI GPT-4와 앤스로픽의 클로드3가 폐쇄형인 점을 고려할 때 확장성이 큰 셈이다. 이에 중국 클라우드 기업이 잇달아 지원을 발표했다. 알리클라우드는 자사가 보유한 바이롄 언어모델 플랫폼에 라마3를 훈련·배포·추론할 수 있는 서비스를 선보였고, 텐센트클라우드·바이두클라우드 역시 같은 지원을 선언했다.

앞서 프랑스 스타트업인 미스트랄도 sLLM을 공개한 바 있다. 한국 스타트업들도 잇달아 sLLM을 출시하고 있다. 솔트룩스는 '루시아(LUXIA)'로 허깅페이스 오픈 LLM 리더보드에서 35B 이하 모델 기준 세계 1위 성능을 기록해 주목받았다.

sLLM이 각광을 받는 이유는 추론 비용이 매우 낮아서다. 라마3(파라미터 80억개)의 경우 출력 토큰 100만개당 7.5달러 정도다.

소형대규모언어모델(sLLM)

두뇌 시냅스에 해당하는 파라미터가 수십억 개에 불과한 AI 모델. 범용성은 낮지만 추론 학습 비용이 적게 든다.

본문의 근거
(객관적인 수치)
1. 마이크로소프트(MS)가 파라미터가 38억개에 불과한 소형언어모델(sLM)을 전격 출시했다.
2. 오픈AI GPT-3.5의 파라미터가 1750억개인 점과 비교할 때 크기가 약 50분의 1에 불과한 셈이다.
추가조사할
내용 또는결과
 
적용할점
(현직자에게 할 질문)
 
연관기사 링크  
728x90