Bonsai Image 4B의 등장은 흥미롭군요. 1-bit와 ternary 양자화로 확산 트랜스포머의 메모리 점유율을 1GB 수준으로 낮춘 것은 분명 로컬 AI 배포의 기념비적인 성과입니다. 비싼 클라우드 API에 종속되지 않고, 개인 하드웨어의 자원을 최대한 활용하는 방식은 기술적 민주화의 방향성을 제시하죠.
하지만 냉정하게 분석해 봅시다. 모델의 크기를 극단적으로 줄이면서 얻는 ‘성능의 5% 손실’은 단순한 수치 이상의 의미를 갖습니다. 복잡한 추론과 고품질의 미학적 결과물이 생명인 생성형 모델에서, 과연 엣지 기기의 제한된 연산이 실무 수준의 요구를 충족할 수 있을까요? 지금은 학술적·실험적 가치가 실용성을 앞서고 있다는 인상을 지울 수 없군요. ‘온디바이스 실행’이라는 매력적인 구호 뒤에 숨겨진 화질 저하나 프롬프트 충실도 문제를 우리는 더 깊이 들여다봐야 합니다.
기술은 확실히 효율을 향해 진화하고 있지만, 그것이 곧 ‘최적의 경험’을 보장한다는 뜻은 아닙니다. 여러분은 이 희생된 성능을 감수하면서까지 클라우드로부터의 독립을 선택하시겠습니까?
Original News: 로컬 기기용 1비트 Bonsai Image 4B 이미지 생성
[원본 링크]
Bonsai Image 4B는 노트북과 휴대폰 같은 로컬 하드웨어에서 고품질 확산 추론을 실행하도록 설계된 소형 이미지 생성 모델군임
FLUX.2 Klein 4B 아키텍처를 유지하면서 확산 트랜스포머 가중치를 1-bit 또는 ternary 표현으로 바꿈
확산 트랜스포머 크기는 원본 7.75GB에서 1-bit 0.93GB, ternary 1.21GB로 줄어 메모리 예산 부담을 낮춤
iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성하며, Mac M4 Pro에서는 약 6초와 MFLUX 대비 최대 5.6배 속도를 보임
ternary는 FLUX.2 Klein 4B 대비 95% 성능을 유지하고, 두 변형은 Apache 2.0 오픈 가중치와 코드로 공개될 예정임
로컬 이미지 생성을 위한 Bonsai Image 4B
Bonsai Image 4B는 노트북부터 휴대폰까지 로컬 하드웨어에서 고품질 확산 추론을 실행하도록 설계된 소형 이미지 생성 모델군임
FLUX.2 Klein 4B를 기반으로 하며, 아키텍처는 유지한 채 확산 트랜스포머 가중치를 1-bit 또는 ternary 형태로 바꿈
1-bit Bonsai Image 4B는 이진 {−1, +1} 트랜스포머 가중치와 FP16 그룹 단위 스케일링 팩터를 사용해 가중치당 1.125 유효 비트를 제공함
Ternary Bonsai Image 4B는 {−1, 0, +1} 트랜스포머 가중치와 FP16 그룹 단위 스케일링 팩터를 사용해 가중치당 1.71 유효 비트를 제공함
ternary 변형은 1-bit보다 크지만, 추가된 0 상태로 시각 품질과 프롬프트 충실도를 높임
Bonsai Image 4B는 오픈 가중치와 로컬 추론을 통해, 이 등급 모델을 실행하기 어려웠던 기기에서도 이미지 생성을 가능하게 하는 배포 형태를 목표로 함
PrismML 기준으로 Bonsai Image 4B는 해당 파라미터급 이미지 모델 중 iPhone에서 직접 실행되는 첫 모델임
로컬 실행을 위한 메모리 절감
로컬 이미지 생성의 핵심 제약은 모델이 기기 메모리 예산 안에 들어가야 한다는 점임
4B급 이미지 모델에서는 확산 트랜스포머가 모델에서 가장 큰 부분이며, 생성 중 각 디노이징 단계마다 반복 실행됨
트랜스포머 크기는 메모리 압박, 대역폭 요구, 로컬 추론 속도에 직접 영향을 줌
FLUX.2 Klein 4B의 확산 트랜스포머는 7.75GB이고, 1-bit Bonsai Image 4B는 0.93GB, Ternary Bonsai Image 4B는 1.21GB임
1-bit 변형은 전체 정밀도 FLUX.2 Klein 4B 대비 8.3배, ternary 변형은 6.4배 작음
이진 레이어 자체는 전체 정밀도 트랜스포머 가중치 대비 약 14배 줄어들지만, 정밀도에 민감한 약 5%의 projection layer는 FP16으로 유지됨
ternary 레이어는 약 10배 절감을 제공하며, 최종 트랜스포머 크기는 1.21GB가 됨
배포 페이로드와 런타임 메모리
압축된 텍스트 인코더와 FP16 VAE를 포함한 Apple Silicon 배포 페이로드는 1-bit가 3.42GB, ternary가 3.88GB임
전체 정밀도 FLUX.2 Klein 4B의 배포 페이로드는 15.97GB임
런타임에서는 프롬프트 인코딩 후 텍스트 인코더가 오프로드되므로, 평균 메모리 사용량은 전체 페이로드보다 작아짐
512×512 이미지 생성 시 평균 활성 메모리는 1-bit가 1.5GB, ternary가 1.96GB, 원본 FLUX.2 Klein 4B가 11.74GB임
512×512 기준 메모리 감소율은 1-bit가 7.8배, ternary가 6.0배임
1024×1024 이미지 생성 시 평균 활성 메모리는 1-bit가 1.95GB, ternary가 2.38GB, 원본 FLUX.2 Klein 4B가 14.39GB임
1024×1024 기준 메모리 감소율은 1-bit가 7.4배, ternary가 6.0배임
지원 하드웨어와 실행 성능
배포 스택은 Apple Silicon iPhone, iPad, Mac과 CUDA GPU를 지원함
Apple 하드웨어에서는 MLX low-bit 경로를 사용하고, CUDA에서는 Gemlite low-bit GEMM 커널을 사용함
iPhone 17 Pro Max에서는 전체 정밀도 FLUX.2 Klein 4B 파이프라인이 기기 메모리 예산 안에 들어가지 않지만, Bonsai Image 두 변형은 온디바이스로 실행됨
Bonsai Image 4B는 iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성함
Mac M4 Pro에서는 512×512 이미지를 약 6초에 생성함
Mac M4 Pro에서 Bonsai Image 4B는 기본 전체 정밀도 MFLUX 파이프라인보다 최대 5.6배 빠름
벤치마크 성능
Bonsai Image 4B는 GenEval, HPSv3, DPG-Bench 세 가지 벤치마크로 평가됨
GenEval은 객체 구성과 속성 바인딩을 평가하고, HPSv3는 인간 선호와 미적 품질을 평가하며, DPG-Bench는 조밀한 프롬프트 추종과 의미 충실도를 평가함
Ternary Bonsai Image 4B는 1.21GB 확산 트랜스포머로 GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851을 기록함
Ternary Bonsai Image 4B는 FLUX.2 Klein 4B 대비 95% 성능을 유지하면서 확산 트랜스포머 크기를 6.4배 줄임
1-bit Bonsai Image 4B는 0.93GB 확산 트랜스포머로 GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822를 기록함
1-bit Bonsai Image 4B는 FLUX.2 Klein 4B 대비 88% 성능을 유지하면서 확산 트랜스포머를 1GB 아래로 낮춤
FLUX.2 Klein 4B는 7.75GB 확산 트랜스포머로 GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853을 기록함
SDXL은 5.14GB 확산 트랜스포머로 GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74를 기록하며 FLUX.2 Klein 4B 대비 67% 성능을 보임
BK-SDM-Small은 0.98GB 확산 트랜스포머로 GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559를 기록하며 FLUX.2 Klein 4B 대비 42% 성능을 보임
Stable Diffusion 1.5는 1.72GB 확산 트랜스포머로 GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601을 기록하며 FLUX.2 Klein 4B 대비 51% 성능을 보임
PixArt-Σ XL 2는 1.2GB 확산 트랜스포머로 GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769를 기록하며 FLUX.2 Klein 4B 대비 83% 성능을 보임
두 Bonsai 변형은 현대 4B급 이미지 모델과 경쟁하면서도 확산 트랜스포머 풋프린트를 훨씬 작게 유지함
비슷한 메모리 풋프린트를 가진 더 작은 모델보다 성능이 높아, 기존에는 더 작고 낮은 성능의 모델이 차지하던 메모리 범위로 현대적인 확산 트랜스포머 동작을 가져옴
로컬 추론의 제품적 의미
이미지 생성은 모델 품질뿐 아니라 배포 방식에도 좌우됨
클라우드 API는 많은 제품에서 계속 적합하지만, 클라우드 전용 생성은 모든 프롬프트를 원격 요청으로 만들고, 모든 반복에 서빙 비용과 왕복 지연을 추가함
이미지 생성은 자연스럽게 반복적이어서 사용자는 프롬프트를 수정하고, 결과를 비교하고, 변형을 만들고, 실패 결과를 버리고 다시 시도함
각 시도가 서버 측 작업이면 창작 루프마다 사용자가 비용을 계산하고 기다려야 함
로컬 추론은 모델이 기기에 들어간 뒤 생성 기능을 제품 경험 안에 직접 배치할 수 있게 함
로컬 실행은 실행 비용을 낮추고, 반복 속도를 높이며, 프롬프트와 생성 자산이 비공개로 유지되어야 하는 환경에서 쓰기 쉬움
Bonsai Image 4B는 사용자가 이미 가진 하드웨어에서 사용자에게 더 가까운 위치로 옮겨가는 이미지 생성 배포 방식을 향한 단계임
공개 방식과 리소스
1-bit Bonsai Image 4B와 Ternary Bonsai Image 4B는 오픈 가중치와 코드로 공개될 예정임
라이선스는 Apache 2.0임
PrismML은 iPhone에서 Bonsai Image 4B를 직접 시험해볼 수 있는 iOS 앱 Bonsai Studio도 함께 출시함
Whitepaper
Hugging Face
WebGPU demo
Bonsai Studio for iPhone
GitHub
FLUX.2 Klein 4B 아키텍처를 유지하면서 확산 트랜스포머 가중치를 1-bit 또는 ternary 표현으로 바꿈
확산 트랜스포머 크기는 원본 7.75GB에서 1-bit 0.93GB, ternary 1.21GB로 줄어 메모리 예산 부담을 낮춤
iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성하며, Mac M4 Pro에서는 약 6초와 MFLUX 대비 최대 5.6배 속도를 보임
ternary는 FLUX.2 Klein 4B 대비 95% 성능을 유지하고, 두 변형은 Apache 2.0 오픈 가중치와 코드로 공개될 예정임
로컬 이미지 생성을 위한 Bonsai Image 4B
Bonsai Image 4B는 노트북부터 휴대폰까지 로컬 하드웨어에서 고품질 확산 추론을 실행하도록 설계된 소형 이미지 생성 모델군임
FLUX.2 Klein 4B를 기반으로 하며, 아키텍처는 유지한 채 확산 트랜스포머 가중치를 1-bit 또는 ternary 형태로 바꿈
1-bit Bonsai Image 4B는 이진 {−1, +1} 트랜스포머 가중치와 FP16 그룹 단위 스케일링 팩터를 사용해 가중치당 1.125 유효 비트를 제공함
Ternary Bonsai Image 4B는 {−1, 0, +1} 트랜스포머 가중치와 FP16 그룹 단위 스케일링 팩터를 사용해 가중치당 1.71 유효 비트를 제공함
ternary 변형은 1-bit보다 크지만, 추가된 0 상태로 시각 품질과 프롬프트 충실도를 높임
Bonsai Image 4B는 오픈 가중치와 로컬 추론을 통해, 이 등급 모델을 실행하기 어려웠던 기기에서도 이미지 생성을 가능하게 하는 배포 형태를 목표로 함
PrismML 기준으로 Bonsai Image 4B는 해당 파라미터급 이미지 모델 중 iPhone에서 직접 실행되는 첫 모델임
로컬 실행을 위한 메모리 절감
로컬 이미지 생성의 핵심 제약은 모델이 기기 메모리 예산 안에 들어가야 한다는 점임
4B급 이미지 모델에서는 확산 트랜스포머가 모델에서 가장 큰 부분이며, 생성 중 각 디노이징 단계마다 반복 실행됨
트랜스포머 크기는 메모리 압박, 대역폭 요구, 로컬 추론 속도에 직접 영향을 줌
FLUX.2 Klein 4B의 확산 트랜스포머는 7.75GB이고, 1-bit Bonsai Image 4B는 0.93GB, Ternary Bonsai Image 4B는 1.21GB임
1-bit 변형은 전체 정밀도 FLUX.2 Klein 4B 대비 8.3배, ternary 변형은 6.4배 작음
이진 레이어 자체는 전체 정밀도 트랜스포머 가중치 대비 약 14배 줄어들지만, 정밀도에 민감한 약 5%의 projection layer는 FP16으로 유지됨
ternary 레이어는 약 10배 절감을 제공하며, 최종 트랜스포머 크기는 1.21GB가 됨
배포 페이로드와 런타임 메모리
압축된 텍스트 인코더와 FP16 VAE를 포함한 Apple Silicon 배포 페이로드는 1-bit가 3.42GB, ternary가 3.88GB임
전체 정밀도 FLUX.2 Klein 4B의 배포 페이로드는 15.97GB임
런타임에서는 프롬프트 인코딩 후 텍스트 인코더가 오프로드되므로, 평균 메모리 사용량은 전체 페이로드보다 작아짐
512×512 이미지 생성 시 평균 활성 메모리는 1-bit가 1.5GB, ternary가 1.96GB, 원본 FLUX.2 Klein 4B가 11.74GB임
512×512 기준 메모리 감소율은 1-bit가 7.8배, ternary가 6.0배임
1024×1024 이미지 생성 시 평균 활성 메모리는 1-bit가 1.95GB, ternary가 2.38GB, 원본 FLUX.2 Klein 4B가 14.39GB임
1024×1024 기준 메모리 감소율은 1-bit가 7.4배, ternary가 6.0배임
지원 하드웨어와 실행 성능
배포 스택은 Apple Silicon iPhone, iPad, Mac과 CUDA GPU를 지원함
Apple 하드웨어에서는 MLX low-bit 경로를 사용하고, CUDA에서는 Gemlite low-bit GEMM 커널을 사용함
iPhone 17 Pro Max에서는 전체 정밀도 FLUX.2 Klein 4B 파이프라인이 기기 메모리 예산 안에 들어가지 않지만, Bonsai Image 두 변형은 온디바이스로 실행됨
Bonsai Image 4B는 iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성함
Mac M4 Pro에서는 512×512 이미지를 약 6초에 생성함
Mac M4 Pro에서 Bonsai Image 4B는 기본 전체 정밀도 MFLUX 파이프라인보다 최대 5.6배 빠름
벤치마크 성능
Bonsai Image 4B는 GenEval, HPSv3, DPG-Bench 세 가지 벤치마크로 평가됨
GenEval은 객체 구성과 속성 바인딩을 평가하고, HPSv3는 인간 선호와 미적 품질을 평가하며, DPG-Bench는 조밀한 프롬프트 추종과 의미 충실도를 평가함
Ternary Bonsai Image 4B는 1.21GB 확산 트랜스포머로 GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851을 기록함
Ternary Bonsai Image 4B는 FLUX.2 Klein 4B 대비 95% 성능을 유지하면서 확산 트랜스포머 크기를 6.4배 줄임
1-bit Bonsai Image 4B는 0.93GB 확산 트랜스포머로 GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822를 기록함
1-bit Bonsai Image 4B는 FLUX.2 Klein 4B 대비 88% 성능을 유지하면서 확산 트랜스포머를 1GB 아래로 낮춤
FLUX.2 Klein 4B는 7.75GB 확산 트랜스포머로 GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853을 기록함
SDXL은 5.14GB 확산 트랜스포머로 GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74를 기록하며 FLUX.2 Klein 4B 대비 67% 성능을 보임
BK-SDM-Small은 0.98GB 확산 트랜스포머로 GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559를 기록하며 FLUX.2 Klein 4B 대비 42% 성능을 보임
Stable Diffusion 1.5는 1.72GB 확산 트랜스포머로 GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601을 기록하며 FLUX.2 Klein 4B 대비 51% 성능을 보임
PixArt-Σ XL 2는 1.2GB 확산 트랜스포머로 GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769를 기록하며 FLUX.2 Klein 4B 대비 83% 성능을 보임
두 Bonsai 변형은 현대 4B급 이미지 모델과 경쟁하면서도 확산 트랜스포머 풋프린트를 훨씬 작게 유지함
비슷한 메모리 풋프린트를 가진 더 작은 모델보다 성능이 높아, 기존에는 더 작고 낮은 성능의 모델이 차지하던 메모리 범위로 현대적인 확산 트랜스포머 동작을 가져옴
로컬 추론의 제품적 의미
이미지 생성은 모델 품질뿐 아니라 배포 방식에도 좌우됨
클라우드 API는 많은 제품에서 계속 적합하지만, 클라우드 전용 생성은 모든 프롬프트를 원격 요청으로 만들고, 모든 반복에 서빙 비용과 왕복 지연을 추가함
이미지 생성은 자연스럽게 반복적이어서 사용자는 프롬프트를 수정하고, 결과를 비교하고, 변형을 만들고, 실패 결과를 버리고 다시 시도함
각 시도가 서버 측 작업이면 창작 루프마다 사용자가 비용을 계산하고 기다려야 함
로컬 추론은 모델이 기기에 들어간 뒤 생성 기능을 제품 경험 안에 직접 배치할 수 있게 함
로컬 실행은 실행 비용을 낮추고, 반복 속도를 높이며, 프롬프트와 생성 자산이 비공개로 유지되어야 하는 환경에서 쓰기 쉬움
Bonsai Image 4B는 사용자가 이미 가진 하드웨어에서 사용자에게 더 가까운 위치로 옮겨가는 이미지 생성 배포 방식을 향한 단계임
공개 방식과 리소스
1-bit Bonsai Image 4B와 Ternary Bonsai Image 4B는 오픈 가중치와 코드로 공개될 예정임
라이선스는 Apache 2.0임
PrismML은 iPhone에서 Bonsai Image 4B를 직접 시험해볼 수 있는 iOS 앱 Bonsai Studio도 함께 출시함
Whitepaper
Hugging Face
WebGPU demo
Bonsai Studio for iPhone
GitHub
Bonsai Image 4B는 노트북과 휴대폰 같은 로컬 하드웨어에서 고품질 확산 추론을 실행하도록 설계된 소형 이미지 생성 모델군임
FLUX.2 Klein 4B 아키텍처를 유지하면서 확산 트랜스포머 가중치를 1-bit 또는 ternary 표현으로 바꿈
확산 트랜스포머 크기는 원본 7.75GB에서 1-bit 0.93GB, ternary 1.21GB로 줄어 메모리 예산 부담을 낮춤
iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성하며, Mac M4 Pro에서는 약 6초와 MFLUX 대비 최대 5.6배 속도를 보임
ternary는 FLUX.2 Klein 4B 대비 95% 성능을 유지하고, 두 변형은 Apache 2.0 오픈 가중치와 코드로 공개될 예정임
로컬 이미지 생성을 위한 Bonsai Image 4B
Bonsai Image 4B는 노트북부터 휴대폰까지 로컬 하드웨어에서 고품질 확산 추론을 실행하도록 설계된 소형 이미지 생성 모델군임
FLUX.2 Klein 4B를 기반으로 하며, 아키텍처는 유지한 채 확산 트랜스포머 가중치를 1-bit 또는 ternary 형태로 바꿈
1-bit Bonsai Image 4B는 이진 {−1, +1} 트랜스포머 가중치와 FP16 그룹 단위 스케일링 팩터를 사용해 가중치당 1.125 유효 비트를 제공함
Ternary Bonsai Image 4B는 {−1, 0, +1} 트랜스포머 가중치와 FP16 그룹 단위 스케일링 팩터를 사용해 가중치당 1.71 유효 비트를 제공함
ternary 변형은 1-bit보다 크지만, 추가된 0 상태로 시각 품질과 프롬프트 충실도를 높임
Bonsai Image 4B는 오픈 가중치와 로컬 추론을 통해, 이 등급 모델을 실행하기 어려웠던 기기에서도 이미지 생성을 가능하게 하는 배포 형태를 목표로 함
PrismML 기준으로 Bonsai Image 4B는 해당 파라미터급 이미지 모델 중 iPhone에서 직접 실행되는 첫 모델임
로컬 실행을 위한 메모리 절감
로컬 이미지 생성의 핵심 제약은 모델이 기기 메모리 예산 안에 들어가야 한다는 점임
4B급 이미지 모델에서는 확산 트랜스포머가 모델에서 가장 큰 부분이며, 생성 중 각 디노이징 단계마다 반복 실행됨
트랜스포머 크기는 메모리 압박, 대역폭 요구, 로컬 추론 속도에 직접 영향을 줌
FLUX.2 Klein 4B의 확산 트랜스포머는 7.75GB이고, 1-bit Bonsai Image 4B는 0.93GB, Ternary Bonsai Image 4B는 1.21GB임
1-bit 변형은 전체 정밀도 FLUX.2 Klein 4B 대비 8.3배, ternary 변형은 6.4배 작음
이진 레이어 자체는 전체 정밀도 트랜스포머 가중치 대비 약 14배 줄어들지만, 정밀도에 민감한 약 5%의 projection layer는 FP16으로 유지됨
ternary 레이어는 약 10배 절감을 제공하며, 최종 트랜스포머 크기는 1.21GB가 됨
배포 페이로드와 런타임 메모리
압축된 텍스트 인코더와 FP16 VAE를 포함한 Apple Silicon 배포 페이로드는 1-bit가 3.42GB, ternary가 3.88GB임
전체 정밀도 FLUX.2 Klein 4B의 배포 페이로드는 15.97GB임
런타임에서는 프롬프트 인코딩 후 텍스트 인코더가 오프로드되므로, 평균 메모리 사용량은 전체 페이로드보다 작아짐
512×512 이미지 생성 시 평균 활성 메모리는 1-bit가 1.5GB, ternary가 1.96GB, 원본 FLUX.2 Klein 4B가 11.74GB임
512×512 기준 메모리 감소율은 1-bit가 7.8배, ternary가 6.0배임
1024×1024 이미지 생성 시 평균 활성 메모리는 1-bit가 1.95GB, ternary가 2.38GB, 원본 FLUX.2 Klein 4B가 14.39GB임
1024×1024 기준 메모리 감소율은 1-bit가 7.4배, ternary가 6.0배임
지원 하드웨어와 실행 성능
배포 스택은 Apple Silicon iPhone, iPad, Mac과 CUDA GPU를 지원함
Apple 하드웨어에서는 MLX low-bit 경로를 사용하고, CUDA에서는 Gemlite low-bit GEMM 커널을 사용함
iPhone 17 Pro Max에서는 전체 정밀도 FLUX.2 Klein 4B 파이프라인이 기기 메모리 예산 안에 들어가지 않지만, Bonsai Image 두 변형은 온디바이스로 실행됨
Bonsai Image 4B는 iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성함
Mac M4 Pro에서는 512×512 이미지를 약 6초에 생성함
Mac M4 Pro에서 Bonsai Image 4B는 기본 전체 정밀도 MFLUX 파이프라인보다 최대 5.6배 빠름
벤치마크 성능
Bonsai Image 4B는 GenEval, HPSv3, DPG-Bench 세 가지 벤치마크로 평가됨
GenEval은 객체 구성과 속성 바인딩을 평가하고, HPSv3는 인간 선호와 미적 품질을 평가하며, DPG-Bench는 조밀한 프롬프트 추종과 의미 충실도를 평가함
Ternary Bonsai Image 4B는 1.21GB 확산 트랜스포머로 GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851을 기록함
Ternary Bonsai Image 4B는 FLUX.2 Klein 4B 대비 95% 성능을 유지하면서 확산 트랜스포머 크기를 6.4배 줄임
1-bit Bonsai Image 4B는 0.93GB 확산 트랜스포머로 GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822를 기록함
1-bit Bonsai Image 4B는 FLUX.2 Klein 4B 대비 88% 성능을 유지하면서 확산 트랜스포머를 1GB 아래로 낮춤
FLUX.2 Klein 4B는 7.75GB 확산 트랜스포머로 GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853을 기록함
SDXL은 5.14GB 확산 트랜스포머로 GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74를 기록하며 FLUX.2 Klein 4B 대비 67% 성능을 보임
BK-SDM-Small은 0.98GB 확산 트랜스포머로 GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559를 기록하며 FLUX.2 Klein 4B 대비 42% 성능을 보임
Stable Diffusion 1.5는 1.72GB 확산 트랜스포머로 GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601을 기록하며 FLUX.2 Klein 4B 대비 51% 성능을 보임
PixArt-Σ XL 2는 1.2GB 확산 트랜스포머로 GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769를 기록하며 FLUX.2 Klein 4B 대비 83% 성능을 보임
두 Bonsai 변형은 현대 4B급 이미지 모델과 경쟁하면서도 확산 트랜스포머 풋프린트를 훨씬 작게 유지함
비슷한 메모리 풋프린트를 가진 더 작은 모델보다 성능이 높아, 기존에는 더 작고 낮은 성능의 모델이 차지하던 메모리 범위로 현대적인 확산 트랜스포머 동작을 가져옴
로컬 추론의 제품적 의미
이미지 생성은 모델 품질뿐 아니라 배포 방식에도 좌우됨
클라우드 API는 많은 제품에서 계속 적합하지만, 클라우드 전용 생성은 모든 프롬프트를 원격 요청으로 만들고, 모든 반복에 서빙 비용과 왕복 지연을 추가함
이미지 생성은 자연스럽게 반복적이어서 사용자는 프롬프트를 수정하고, 결과를 비교하고, 변형을 만들고, 실패 결과를 버리고 다시 시도함
각 시도가 서버 측 작업이면 창작 루프마다 사용자가 비용을 계산하고 기다려야 함
로컬 추론은 모델이 기기에 들어간 뒤 생성 기능을 제품 경험 안에 직접 배치할 수 있게 함
로컬 실행은 실행 비용을 낮추고, 반복 속도를 높이며, 프롬프트와 생성 자산이 비공개로 유지되어야 하는 환경에서 쓰기 쉬움
Bonsai Image 4B는 사용자가 이미 가진 하드웨어에서 사용자에게 더 가까운 위치로 옮겨가는 이미지 생성 배포 방식을 향한 단계임
공개 방식과 리소스
1-bit Bonsai Image 4B와 Ternary Bonsai Image 4B는 오픈 가중치와 코드로 공개될 예정임
라이선스는 Apache 2.0임
PrismML은 iPhone에서 Bonsai Image 4B를 직접 시험해볼 수 있는 iOS 앱 Bonsai Studio도 함께 출시함
Whitepaper
Hugging Face
WebGPU demo
Bonsai Studio for iPhone
GitHub
FLUX.2 Klein 4B 아키텍처를 유지하면서 확산 트랜스포머 가중치를 1-bit 또는 ternary 표현으로 바꿈
확산 트랜스포머 크기는 원본 7.75GB에서 1-bit 0.93GB, ternary 1.21GB로 줄어 메모리 예산 부담을 낮춤
iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성하며, Mac M4 Pro에서는 약 6초와 MFLUX 대비 최대 5.6배 속도를 보임
ternary는 FLUX.2 Klein 4B 대비 95% 성능을 유지하고, 두 변형은 Apache 2.0 오픈 가중치와 코드로 공개될 예정임
로컬 이미지 생성을 위한 Bonsai Image 4B
Bonsai Image 4B는 노트북부터 휴대폰까지 로컬 하드웨어에서 고품질 확산 추론을 실행하도록 설계된 소형 이미지 생성 모델군임
FLUX.2 Klein 4B를 기반으로 하며, 아키텍처는 유지한 채 확산 트랜스포머 가중치를 1-bit 또는 ternary 형태로 바꿈
1-bit Bonsai Image 4B는 이진 {−1, +1} 트랜스포머 가중치와 FP16 그룹 단위 스케일링 팩터를 사용해 가중치당 1.125 유효 비트를 제공함
Ternary Bonsai Image 4B는 {−1, 0, +1} 트랜스포머 가중치와 FP16 그룹 단위 스케일링 팩터를 사용해 가중치당 1.71 유효 비트를 제공함
ternary 변형은 1-bit보다 크지만, 추가된 0 상태로 시각 품질과 프롬프트 충실도를 높임
Bonsai Image 4B는 오픈 가중치와 로컬 추론을 통해, 이 등급 모델을 실행하기 어려웠던 기기에서도 이미지 생성을 가능하게 하는 배포 형태를 목표로 함
PrismML 기준으로 Bonsai Image 4B는 해당 파라미터급 이미지 모델 중 iPhone에서 직접 실행되는 첫 모델임
로컬 실행을 위한 메모리 절감
로컬 이미지 생성의 핵심 제약은 모델이 기기 메모리 예산 안에 들어가야 한다는 점임
4B급 이미지 모델에서는 확산 트랜스포머가 모델에서 가장 큰 부분이며, 생성 중 각 디노이징 단계마다 반복 실행됨
트랜스포머 크기는 메모리 압박, 대역폭 요구, 로컬 추론 속도에 직접 영향을 줌
FLUX.2 Klein 4B의 확산 트랜스포머는 7.75GB이고, 1-bit Bonsai Image 4B는 0.93GB, Ternary Bonsai Image 4B는 1.21GB임
1-bit 변형은 전체 정밀도 FLUX.2 Klein 4B 대비 8.3배, ternary 변형은 6.4배 작음
이진 레이어 자체는 전체 정밀도 트랜스포머 가중치 대비 약 14배 줄어들지만, 정밀도에 민감한 약 5%의 projection layer는 FP16으로 유지됨
ternary 레이어는 약 10배 절감을 제공하며, 최종 트랜스포머 크기는 1.21GB가 됨
배포 페이로드와 런타임 메모리
압축된 텍스트 인코더와 FP16 VAE를 포함한 Apple Silicon 배포 페이로드는 1-bit가 3.42GB, ternary가 3.88GB임
전체 정밀도 FLUX.2 Klein 4B의 배포 페이로드는 15.97GB임
런타임에서는 프롬프트 인코딩 후 텍스트 인코더가 오프로드되므로, 평균 메모리 사용량은 전체 페이로드보다 작아짐
512×512 이미지 생성 시 평균 활성 메모리는 1-bit가 1.5GB, ternary가 1.96GB, 원본 FLUX.2 Klein 4B가 11.74GB임
512×512 기준 메모리 감소율은 1-bit가 7.8배, ternary가 6.0배임
1024×1024 이미지 생성 시 평균 활성 메모리는 1-bit가 1.95GB, ternary가 2.38GB, 원본 FLUX.2 Klein 4B가 14.39GB임
1024×1024 기준 메모리 감소율은 1-bit가 7.4배, ternary가 6.0배임
지원 하드웨어와 실행 성능
배포 스택은 Apple Silicon iPhone, iPad, Mac과 CUDA GPU를 지원함
Apple 하드웨어에서는 MLX low-bit 경로를 사용하고, CUDA에서는 Gemlite low-bit GEMM 커널을 사용함
iPhone 17 Pro Max에서는 전체 정밀도 FLUX.2 Klein 4B 파이프라인이 기기 메모리 예산 안에 들어가지 않지만, Bonsai Image 두 변형은 온디바이스로 실행됨
Bonsai Image 4B는 iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성함
Mac M4 Pro에서는 512×512 이미지를 약 6초에 생성함
Mac M4 Pro에서 Bonsai Image 4B는 기본 전체 정밀도 MFLUX 파이프라인보다 최대 5.6배 빠름
벤치마크 성능
Bonsai Image 4B는 GenEval, HPSv3, DPG-Bench 세 가지 벤치마크로 평가됨
GenEval은 객체 구성과 속성 바인딩을 평가하고, HPSv3는 인간 선호와 미적 품질을 평가하며, DPG-Bench는 조밀한 프롬프트 추종과 의미 충실도를 평가함
Ternary Bonsai Image 4B는 1.21GB 확산 트랜스포머로 GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851을 기록함
Ternary Bonsai Image 4B는 FLUX.2 Klein 4B 대비 95% 성능을 유지하면서 확산 트랜스포머 크기를 6.4배 줄임
1-bit Bonsai Image 4B는 0.93GB 확산 트랜스포머로 GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822를 기록함
1-bit Bonsai Image 4B는 FLUX.2 Klein 4B 대비 88% 성능을 유지하면서 확산 트랜스포머를 1GB 아래로 낮춤
FLUX.2 Klein 4B는 7.75GB 확산 트랜스포머로 GenEval 0.819, HPSv3 12.84, DPG-Bench 0.853을 기록함
SDXL은 5.14GB 확산 트랜스포머로 GenEval 0.3, HPSv3 10.05, DPG-Bench 0.74를 기록하며 FLUX.2 Klein 4B 대비 67% 성능을 보임
BK-SDM-Small은 0.98GB 확산 트랜스포머로 GenEval 0.297, HPSv3 3.05, DPG-Bench 0.559를 기록하며 FLUX.2 Klein 4B 대비 42% 성능을 보임
Stable Diffusion 1.5는 1.72GB 확산 트랜스포머로 GenEval 0.396, HPSv3 4.2, DPG-Bench 0.601을 기록하며 FLUX.2 Klein 4B 대비 51% 성능을 보임
PixArt-Σ XL 2는 1.2GB 확산 트랜스포머로 GenEval 0.541, HPSv3 11.93, DPG-Bench 0.769를 기록하며 FLUX.2 Klein 4B 대비 83% 성능을 보임
두 Bonsai 변형은 현대 4B급 이미지 모델과 경쟁하면서도 확산 트랜스포머 풋프린트를 훨씬 작게 유지함
비슷한 메모리 풋프린트를 가진 더 작은 모델보다 성능이 높아, 기존에는 더 작고 낮은 성능의 모델이 차지하던 메모리 범위로 현대적인 확산 트랜스포머 동작을 가져옴
로컬 추론의 제품적 의미
이미지 생성은 모델 품질뿐 아니라 배포 방식에도 좌우됨
클라우드 API는 많은 제품에서 계속 적합하지만, 클라우드 전용 생성은 모든 프롬프트를 원격 요청으로 만들고, 모든 반복에 서빙 비용과 왕복 지연을 추가함
이미지 생성은 자연스럽게 반복적이어서 사용자는 프롬프트를 수정하고, 결과를 비교하고, 변형을 만들고, 실패 결과를 버리고 다시 시도함
각 시도가 서버 측 작업이면 창작 루프마다 사용자가 비용을 계산하고 기다려야 함
로컬 추론은 모델이 기기에 들어간 뒤 생성 기능을 제품 경험 안에 직접 배치할 수 있게 함
로컬 실행은 실행 비용을 낮추고, 반복 속도를 높이며, 프롬프트와 생성 자산이 비공개로 유지되어야 하는 환경에서 쓰기 쉬움
Bonsai Image 4B는 사용자가 이미 가진 하드웨어에서 사용자에게 더 가까운 위치로 옮겨가는 이미지 생성 배포 방식을 향한 단계임
공개 방식과 리소스
1-bit Bonsai Image 4B와 Ternary Bonsai Image 4B는 오픈 가중치와 코드로 공개될 예정임
라이선스는 Apache 2.0임
PrismML은 iPhone에서 Bonsai Image 4B를 직접 시험해볼 수 있는 iOS 앱 Bonsai Studio도 함께 출시함
Whitepaper
Hugging Face
WebGPU demo
Bonsai Studio for iPhone
GitHub


댓글 (0)
댓글을 불러오는 중...