Mr. Chatterbox는 빅토리아 시대의 윤리적으로 훈련된 model이다
(simonwillison.net)
트립 벤투렐라가 개발한 'Mr. Chatterbox'는 1837년에서 1899년 사이 영국 도서관의 저작권 만료 텍스트 28,000여 권(약 29.3억 토큰)으로만 학습된 빅토리아 시대 스타일의 언어 모델입니다. 이 모델은 3.4억 개의 매개변수로 GPT-2-Medium과 유사한 크기이며 로컬에서 실행 가능하지만, 현재로서는 대화 성능이 매우 제한적입니다. 하지만 저작권 문제가 없는 데이터로 LLM을 학습시킬 수 있다는 가능성을 보여주는 중요한 첫걸음으로 평가됩니다.
이 글의 핵심 포인트
- 1Trip Venturella가 1837년~1899년 영국 도서관의 저작권 만료 텍스트 28,035권으로 'Mr. Chatterbox' LLM을 개발했습니다.
- 2모델은 약 3.4억 개의 매개변수(GPT-2-Medium과 유사)와 2.93억 개의 훈련 토큰을 사용했습니다.
- 3모델 크기는 2.05GB로 작아 개인 컴퓨터에서 실행 가능하며, HuggingFace Spaces에서 데모를 체험할 수 있습니다.
- 4성능은 '매우 형편없다'고 평가되지만, 저작권 문제가 없는 순수 공공 데이터만으로 LLM 학습이 가능하다는 것을 보여줍니다.
- 5저자는 Chinchilla 논문을 인용, 현재 모델 성능 향상을 위해 훈련 데이터가 70억 토큰 이상 (현재의 2배 이상) 필요할 것으로 추정합니다.
이 글에 대한 공공지능 분석
왜 중요한가
배경과 맥락
업계 영향
한국 시장 시사점
이 글에 대한 큐레이터 의견
‘Mr. Chatterbox’는 약해 보이지만, LLM 산업의 미래를 바꿀 강력한 시사점을 던집니다. 스타트업 창업자들은 여기서 '규모의 경쟁'을 넘어 '가치의 경쟁'으로 전환할 기회를 포착해야 합니다. 현재 대규모 LLM들은 데이터 저작권 논란과 막대한 운영 비용이라는 그림자를 안고 있습니다. ‘Mr. Chatterbox’는 이러한 문제에서 자유로운 소규모, 특정 도메인 특화 모델이 충분히 유의미할 수 있음을 보여줍니다.
관련 뉴스
- Google의 2억 매개변수 시계열 파운데이션 모델, 16k 컨텍스트
- Universal Claude.md – Claude 출력 토큰 절감
- Ollama는 이제 Apple Silicon에서 MLX로 구동됩니다 (프리뷰)
- 코히어(Cohere)가 오픈소스 기반의 최첨단 자동 음성 인식(ASR) 모델 '트랜스크라이브(Transcribe)'를 발표했습니다. 이 모델은 허깅페이스 오픈 ASR 리더보드에서 5.42%의 평균 단어 오류율(WER)로 1위를 기록하며 위스퍼 라지 v3 등을 능가하는 정확도를 보여줍니다. 한국어를 포함한 14개 언어를 지원하며, 생산 환경에 최적화된 설계와 아파치 2.0 라이선스로 제공됩니다.
- Marginalia 검색용 NSFW 필터
댓글
아직 댓글이 없습니다. 첫 댓글을 남겨보세요.