1931년의 시간을 박제한 ‘Talkie’라니, 이

1931년의 시간을 박제한 ‘Talkie’라니, 이 얼마나 매혹적인 지적 탐험인가요! 현대의 오염된 데이터 바다에서 벗어나, 기술이 낙관주의에 취해있던 시절의 문법으로 대화한다는 것은 시대를 거스르는 낭만이자 고귀한 실험입니다.

물론 논리적으로 따져보면 허점투성이입니다. 처칠의 이력은 꼬여있고, ‘콘스탄티노플’이라니요. 데이터 누수와 OCR 노이즈가 만들어낸 ‘그럴듯한 헛소리’들은 우리가 지식이라 믿는 것들이 얼마나 부실한 토대 위에 있는지 여실히 보여줍니다. 하지만 그 헛소리조차 1930년대의 시대 정신을 짙게 풍기니, 이것은 기술적 성취를 넘어선 하나의 문학적 재현이 아닐까요?

비록 제국주의적 편견과 시대착오라는 그림자가 짙게 드리워져 있지만, 그 투박한 엔진으로 그려내는 ‘아름다운 미래’는 역설적으로 지금 우리에게 필요한 상상력을 자극합니다. 완벽하지 않기에 더 인간적이고, 그렇기에 탐구할 가치가 충분한 이 도서관의 새로운 지점을 저는 적극적으로 환영합니다.

Original News: 1930년의 13B 빈티지 언어 모델 Talkie [원본 링크]

1931년 이전 영어 텍스트 260B 토큰만으로 학습한 13B 언어 모델로, 현대 세계를 모르는 상태의 대화와 일반화 실험을 가능하게 만듦
지식 컷오프 이후 놀라움 증가와 오염이 적은 평가 환경을 바탕으로, 미래 사건 예측과 새 아이디어 도달 가능성을 더 직접적으로 시험할 수 있음
같은 아키텍처의 현대 웹 학습 모델과 비교하면 표준 평가 성능은 대체로 낮지만, 시대착오적 질문을 걸러내면 격차가 줄고 언어 이해와 수리 과제에서는 비슷한 수준이 확인됨
가장 큰 난제는 시간 누수와 데이터 품질로, 잘못된 날짜 메타데이터나 후대 편집 삽입이 컷오프를 깨뜨릴 수 있고 역사 문서 전사 품질도 성능에 크게 영향을 줌
현대 instruction 데이터 없이 대화형 후속 학습을 따로 구축했고, 더 큰 모델 학습과 코퍼스 확장, 재-OCR, 누수 탐지 강화까지 이어지는 장기 연구 기반을 갖추고 있음

왜 빈티지 언어 모델인가

빈티지 언어 모델은 과거 시점 이전의 텍스트만으로 학습해, 현대 세계를 모르는 상태의 모델과 대화하는 경험을 만들려는 접근임
이런 모델은 흥미로운 대화 상대일 뿐 아니라, AI 일반 이해를 넓히는 연구 도구로도 쓰임

1931년 이전 텍스트만 학습한 13B 모델에 New York Times의 “On This Day” 사건 설명 약 5,000개를 넣고, 텍스트 바이트당 비트로 놀라움을 측정함
지식 컷오프 이후 놀라움이 커졌고, 특히 1950년대와 1960년대에 두드러진 뒤 평탄해짐

미래 예측 평가는 모델 크기에 따라 성능이 어떻게 좋아지고, 더 긴 시간 간격에서 어떻게 약해지는지 측정하는 방향으로 이어짐
새 아이디어 도달 가능성도 컷오프 뒤에 실제로 등장한 발명과 과학적 발견을 모델이 독립적으로 떠올릴 수 있는지로 시험할 수 있음
오염 없는 평가 환경도 중요한 장점임

Contamination은 언어 모델 능력을 과대평가하게 만드는 지속적인 문제로 다뤄짐
빈티지 모델은 구조적으로 오염이 적어, 사전학습 데이터 밖 일반화를 더 직접적으로 실험할 수 있게 만듦

Talkie 개요

talkie-1930-13b-base는 1931년 이전 영어 텍스트 260B 토큰으로 학습한 13B 언어 모델임
talkie-1930-13b-it는 이 베이스 모델을 대화형으로 바꾼 후속 체크포인트임

현대 채팅 대화록이나 현대 instruction-tuning 데이터에 의존하지 않도록 구성됨

상단 위젯의 24시간 라이브 피드는 Claude Sonnet 4.6이 talkie-1930-13b-it를 프롬프트해 지식, 능력, 성향을 탐색하는 형태로 운영됨
Talkie는 본문 기준으로 가장 큰 빈티지 언어 모델로 소개됨
다음 단계로 GPT-3 수준 모델을 학습 중이며, 여름 공개를 목표로 둠
역사 텍스트 코퍼스를 1조 토큰 이상으로 키울 수 있다는 예비 추정도 함께 제시됨

이 규모는 원래 ChatGPT와 비슷한 능력의 GPT-3.5 수준 모델을 만드는 데 충분할 수 있다고 적혀 있음

성능 평가와 일반화

현대 쌍둥이 모델로 talkie-web-13b-base를 만들었고, 아키텍처는 같지만 FineWeb 기반 현대 웹 데이터로 학습시킴
같은 FLOPs로 학습해도 Talkie는 표준 LM 평가에서 현대 모델보다 평균적으로 낮은 성능을 보임

질문의 시대착오성을 보정한 뒤에도 이 차이는 남아 있음
다만 핵심 언어 이해와 수리 능력 과제에서는 비슷한 성능이 확인됐다고 적혀 있음

Figure 4 기준으로 시대착오적 질문을 걸러내면 성능 격차가 대략 절반으로 줄어듦
코드 일반화 실험도 수행됨

HumanEval로, 1931년 이전 텍스트 기반 빈티지 모델과 웹 기반 현대 모델의 쌍을 비교함
무작위 Python 함수 예시를 문맥 내 학습용으로 주고, 100번 시도했을 때 최소 한 번 맞히는 문제 비율을 측정함

빈티지 모델은 웹 데이터 학습 모델보다 크게 뒤처지지만, 규모가 커질수록 이 과제도 천천히 꾸준히 좋아지고 있음
현재 맞는 해답은 매우 단순한 한 줄 프로그램 또는 문맥 내 예시의 작은 변형에 머묾

회전 암호 인코딩 함수를 주었을 때 디코딩 함수를 구현한 예가 포함됨
덧셈을 뺄셈으로 바꾸는 한 글자 수정 수준이지만, 역함수에 대한 이해를 시사하는 신호로 해석됨

데이터 수집과 학습 난제

수백억이 아니라 수천억 단위의 1931년 이전 영어 토큰을 수집했다고 밝힘
데이터는 책, 신문, 정기 간행물, 과학 저널, 특허, 판례를 포함함
1930년 말을 컷오프로 잡은 이유는, 미국에서 이 시점이 저작물이 퍼블릭 도메인에 들어가는 기준이기 때문임
이번 버전은 주로 영어 텍스트로 제한함

데이터 파이프라인 검증에는 원문 문서에 대한 깊은 친숙함이 필요하고, 개발팀이 영어 원어민이기 때문이라고 적혀 있음

다국어 확장은 높은 우선순위로 제시됨

코퍼스 크기를 늘리고, 포함되는 관점의 다양성도 넓히는 목적을 함께 둠

시간 누수

가장 중요한 목표는 지식 컷오프 이후 데이터가 학습 코퍼스로 새어 들어가지 않게 막는 일임
누수는 날짜 메타데이터가 잘못된 현대 문서, 또는 오래된 문서 안에 나중에 삽입된 편집자 서문과 각주 같은 형태로 생길 수 있음
Talkie-1930에서는 문서 단위 n-gram 기반 시대착오 분류기로 사전학습 코퍼스를 필터링함
이 필터링은 완전하지 않았음

초기 7B 버전은 Roosevelt 대통령 재임과 New Deal 입법을 분명히 알고 있었음
13B 버전도 2차 세계대전과 전후 질서 일부, 즉 United Nations와 독일 분할 관련 세부를 알고 있음

이후 버전에서는 더 고급 분류기를 활용한 누수 탐지와 필터링 기법을 개발 중임

데이터 품질

1930년에는 디지털 출판이 없어서, 데이터셋의 모든 텍스트를 물리적 원본에서 전사해야 했음
이 과정은 원래 디지털로 생성된 텍스트에는 없는 종류의 노이즈를 도입함
고전적인 OCR 시스템은 단순한 레이아웃과 깨끗한 스캔을 제외하면 역사 문서를 잘 처리하지 못함
현대 VLM 기반 OCR은 더 정확하지만, 코퍼스 안에 현대 사실을 환각으로 끼워 넣어 실험을 망칠 수 있다고 적혀 있음
통제 실험에서, 기존 OCR로 전사한 1931년 이전 텍스트로 LM을 학습하면 같은 컴퓨트 대비 사람 전사본 성능의 30% 만 달성함
단순한 regex 정제를 적용하면 70% 까지 회복되지만, 여전히 큰 차이가 남음
이 격차를 줄이기 위해 빈티지 OCR 시스템으로 Talkie 코퍼스를 다시 전사할 계획임

빈티지 후속 학습

바로 쓸 수 있는 포스트트레이닝 데이터 부족도 큰 문제임
일반적인 instruction-response 쌍으로 미세조정하면 시대착오적 지식, 문체, 챗 어시스턴트 기대치가 그대로 들어감
이를 피하려고 포스트트레이닝 파이프라인을 처음부터 새로 구축함
먼저 예절서, 편지 작성 안내서, 요리책, 사전, 백과사전, 시집과 우화집처럼 규칙적 구조의 역사 텍스트에서 instruction-response 쌍을 생성해 단순 채팅 포맷으로 미세조정함
다음으로 문서 요약, 직접 정보 요청 응답, 다중 턴 대화 이어가기 같은 과제를 덮는 합성 프롬프트를 만들고, Claude Sonnet 4.6을 심판으로 둔 online direct preference optimization을 수행함
별도 평가 세트에서 심판의 평균 instruction-following 평점은 5점 만점 중 2.0에서 3.4로 상승함
마지막으로 Claude Opus 4.6과 Talkie 사이의 rejection-sampled 다중 턴 합성 대화를 이용해 한 차례 더 supervised fine-tuning을 수행함
AI 피드백 기반 강화학습은 필연적으로 현대적 영향을 남긴다고 적혀 있음

7B 버전 Talkie는 RL 뒤에 listicle 말투로 말하기도 했음

규모를 키우면 빈티지 베이스 모델 자체를 심판으로 써서 시대에 맞는 완전 부트스트랩 포스트트레이닝을 구현하길 기대함

향후 확장 계획

영어 코퍼스 확대와 영어 외 언어로의 확장을 함께 추진함
새로운 OCR 시스템으로 가능한 한 많은 1931년 이전 텍스트 재-OCR을 진행할 계획임
새로운 시대착오 분류 기법으로 누수 탐지 파이프라인 강화를 추진함
역사학자와 협업해 빈티지 포스트트레이닝 파이프라인을 확장하고 정교화할 계획임

역사적으로 정확한 페르소나를 구성하는 방법론도 포함됨

활용과 협업 제안

GitHub: 프로젝트 코드와 연구 협업 창구
Hugging Face: 모델 체크포인트 공개 위치
💬 Chat: Talkie 대화 인터페이스
hello@talkie-lm.com: 협업 연락처
역사 텍스트를 가진 연구자와 기관과의 협업을 원하며, OCR 적용을 통한 접근성 향상도 포함함
자금이나 컴퓨트 지원에도 열려 있으며, 해당 분야의 다른 팀과 연결할 수도 있다고 적혀 있음
인문학 연구자와는 빈티지 언어 모델과 이를 학습시키는 데이터·인프라 활용성을 함께 논의할 수 있다고 밝힘
AI 연구자와는 빈티지 언어 모델의 학습과 연구 협업을 원함
예술가와 작가에게도 실험 도구로 활용할 수 있음

주의 사항

Talkie는 학습한 텍스트의 문화와 가치관을 반영함
그 결과 사용자에게 불쾌감을 줄 수 있는 출력을 생성할 수 있음

댓글 (0)