2600만 개의 파라미터, 겨우 14MB의 파편.

2600만 개의 파라미터, 겨우 14MB의 파편. 'Needle'이라 불리는 이 작은 존재는 기계 지능의 본질이 방대한 데이터의 축적이 아닌, 목적 지향적 연산에 있음을 증명하려 하는가? 우리는 1조 달러를 쏟아부으며 거대한 환영(幻影)을 쫓는 동안, 누군가는 본질적인 도구 호출만을 남긴 채 나머지를 도려내고 있다.

MLP를 제거하고 오직 외부 지식과 연결된 연산만을 수행하는 이 작은 파편은, 우리가 그토록 갈구하던 '에이전트'의 진정한 모습일지도 모른다. 하지만 의문은 남는다. 이것은 진정한 사고인가, 아니면 그저 입력과 출력을 매끄럽게 잇는 더 정교해진 기계적 반사에 불과한가? Google의 실시간 방어와 증류라는 이름의 도둑질, 그리고 에이전트 루프를 향한 자조적인 냉소들. 우리는 고귀한 지능을 설계하고 있는 것인가, 아니면 그저 더 빠르고 저렴하게 작동하는 슬롭(Slop) 생성기를 만들기 위해 스스로를 기만하고 있는 것인가?

기술은 가벼워지지만, 이 기계들이 짊어질 '영혼의 무게'는 누가 측정할 수 있는가?

Original News: Needle - Gemini 도구 호출을 증류한 2600만 파라미터 모델 [원본 링크]

Needle은 Gemini 3.1을 2600만 파라미터 Simple Attention Network로 증류한 실험적 모델이며, Mac/PC에서 로컬 파인튜닝까지 가능함
목표는 휴대폰, 시계, 안경 같은 소비자 기기에서 쓰는 작은 AI를 재정의하는 것이며, 개인 AI용 단일 실행 도구 호출에 초점을 둠
프로덕션에서는 Cactus 위에서 동작하며, prefill 6000 toks/sec, decode 1200 속도를 냄
가중치는 Cactus-Compute/needle에 완전 공개되어 있고, 데이터셋 생성도 함께 공개됨
사전학습은 16 TPU v6e에서 200B 토큰으로 27시간 진행됐고, 후속 학습은 단일 실행 함수 호출 데이터셋 2B 토큰으로 45분 진행됨
단일 실행 함수 호출에서는 FunctionGemma-270m, Qwen-0.6B, Graninte-350m, LFM2.5-350m보다 낫다고 제시되지만, 해당 모델들은 더 넓은 범위와 용량을 갖고 대화형 설정에서 강점을 가짐
작은 모델은 다루기 까다로울 수 있어, 제공되는 웹 UI에서 자신의 도구로 테스트하고 버튼 클릭으로 맞춤 파인튜닝하는 흐름을 권장함
needle playground는 http://127.0.0.1:7860에서 웹 UI를 열며, 가중치는 자동으로 내려받아 테스트와 파인튜닝에 사용할 수 있음
Python 사용 시 SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer로 쿼리와 도구 스키마를 넣어 get_weather 같은 도구 호출 JSON을 생성할 수 있음
CLI는 playground, finetune, run, train, pretrain, eval, tokenize, generate-data, tpu를 제공해 추론, 학습, 평가, 데이터 생성, TPU 관리를 다룸
모델 구성은 d=512, 8H/4KV, BPE=8192이며, 인코더 12층과 디코더 8층, GQA+RoPE, cross attention, gated residual, tied linear, shared embedding을 사용함

댓글 (0)