Microsoft-onderzoekers hebben zojuist Bitnet B1.58 2B4T gemaakt, een open-source 1-bit groot taalmodel (LLM) met twee miljard parameters die zijn getraind op vier biljoen tokens. Maar wat dit AI -model uniek maakt, is dat het lichtgewicht genoeg is om efficiënt op een CPU te werken, waarbij TechCrunch zegt dat een Apple M2 -chip het kan uitvoeren. Het model is ook direct beschikbaar op knuffelgezicht, waardoor iedereen ermee kan experimenteren.
Bitnets gebruiken 1-bits gewichten met slechts drie mogelijke waarden: -1, 0 en +1-technisch gezien is het een “1.58-bit model” vanwege de ondersteuning voor drie waarden. Dit bespaart veel geheugen in vergelijking met reguliere AI-modellen met 32-bit of 16-bits floating-point-formaten, waardoor ze veel efficiënter kunnen werken en minder geheugen- en rekenkracht nodig hebben. De eenvoud van Bitnet heeft echter één nadeel – het is minder nauwkeurig in vergelijking met grotere AI -modellen. Bitnet B1.58 2B4T maakt dit echter goed met zijn massale trainingsgegevens, die naar schatting meer dan 33 miljoen boeken zijn.
Het team achter dit lichtgewicht model vergeleken het met toonaangevende mainstream -modellen, waaronder meta LLAMA 3.2 1B, Google’s Gemma 3 1B en Alibaba’s Qwen 2.5 1.5b. Bitnet B1.58 2B4T scoorde relatief goed tegen deze modellen in de meeste tests en behaalde zelfs de hoogste eer in een paar benchmarks. Wat nog belangrijker is, het verbruikte slechts 400 MB in niet-ingebed geheugen-minder dan 30% van wat het volgende kleinste model (Gemma 3 1B) gebruikte, dat 1,4 GB is.
Benchmark |
Bitnet B1.58 2B |
LLAMA 3.2 1B |
Gemma 3 1B |
Qwen 2.5 1.5B |
---|---|---|---|---|
Niet-embeddening geheugengebruik |
0,4 GB |
2 GB |
1.4 GB |
2.6 GB |
Latentie (CPU -decodering) |
29ms |
48ms |
41 ms |
65 ms |
Training tokens |
4 biljoen |
9 biljoen |
2 biljoen |
18 biljoen |
Boog-challenge |
49.91 |
37.80 |
38.40 |
46.67 |
Boog-gemakkelijk |
74.79 |
63.17 |
63.13 |
76.01 |
Openbookqa |
41.60 |
34.80 |
38.80 |
40.80 |
Boolq |
80.18 |
64.65 |
74.22 |
78.04 |
Hellaswag |
68.44 |
60.80 |
57.69 |
68.28 |
Piqa |
77.09 |
74.21 |
71.93 |
76.12 |
Winogrande |
71.90 |
59.51 |
58.48 |
62.83 |
Commonsenseqa |
71.58 |
58.48 |
42.10 |
76.41 |
Truthfulqa |
45.31 |
43.80 |
38.66 |
46.67 |
Triviaqa |
33.57 |
37.60 |
23.49 |
38.37 |
Mmlu |
53.17 |
45.58 |
39.91 |
60.25 |
Humaneval+ |
38.40 |
31.10 |
37.20 |
50.60 |
GSM8K |
58.38 |
38.21 |
31.16 |
56.79 |
MATH-500 |
43.40 |
23.00 uur |
42.00 |
53,00 |
Evalal |
53.48 |
62.71 |
66.67 |
50.12 |
MT-bank |
5.85 |
5.43 |
6.40 |
6.12 |
Gemiddeld |
54.19 |
44.90 |
43.74 |
55.23 |
De LLM moet echter het bitnet.cpp Inferentiekader gebruiken om dit efficiënt te laten werken. Het team zei specifiek dat dit model niet de prestatie -efficiëntie -winsten zal hebben “wanneer het wordt gebruikt met de standaard Transformers -bibliotheek, zelfs met de vereiste vork.”
U moet het framework op GitHub pakken als u wilt profiteren van de voordelen ervan op lichtgewicht hardware. De repository beschrijft bitnet.cpp als het aanbieden van “een pakket geoptimaliseerde kernels die snelle en verliesloze inferentie van 1,58-bit modellen op CPU ondersteunen (met NPU- en GPU-ondersteuning die aankomen). Hoewel het op dit moment geen AI-specifieke hardware ondersteunt, kan het nog steeds iedereen met een computer experimenteren met AI zonder dure componenten.
AI -modellen worden vaak bekritiseerd om te veel energie te nemen om te trainen en te werken. Maar Lightweight LLMS, zoals Bitnet B1.58 2B4T, kan ons helpen AI -modellen lokaal uit te voeren op minder krachtige hardware. Dit kan onze afhankelijkheid van massieve datacenters verminderen en zelfs mensen geven zonder toegang tot de nieuwste processors met ingebouwde NPU’s en de krachtigste GPU’s om kunstmatige intelligentie te gebruiken.