Polski open-source LLM, który wreszcie traktuje polski jak pierwszy język — nie jako dodatek do angielskiego.

Bielik v3 ukazał się 12 kwietnia na arXiv jako dwa modele: 7B i 11B parametrów. Jeden szczegół robi tu całą różnicę: zamiast używać tokenizera zaprojektowanego pod angielski (jak Mistral czy Llama), autorzy zbudowali słownik od zera pod morfologię polskiego. To ważne, bo standardowe modele "nie rozumieją" fleksji — traktują "zamówiłem", "zamówiłam", "zamówię" jak zupełnie obce słowa. Dedykowany tokenizer redukuje tę fragmentację, co przekłada się na krótsze sekwencje, mniej obliczeń i lepsze rozumienie tekstu.

Za kulisami: wieloetapowe pretraining na polskim korpusie, potem dostrajanie przez DPO i uczenie ze wzmocnieniem (to taki sposób, żeby model uczył się co jest "dobrą" odpowiedzią, nie tylko co jest "prawdopodobną"). Efekt to model, który nie tylko mówi po polsku, ale myśli w strukturach charakterystycznych dla polszczyzny.

Co to zmienia dla małej firmy IT? Przede wszystkim: można to uruchomić lokalnie. 7B bez problemu chodzi na jednej karcie graficznej z 16 GB VRAM, 11B na dwóch lub na serwerze z wolną pamięcią. Zero opłat za API, zero danych wysyłanych na zewnątrz. Dla firm, które przetwarzają umowy, faktury czy maile klientów — to istotne.

Projekt jest open-source, dostępny na Hugging Face. Nie trzeba czekać na polską wersję jakiegoś zagranicznego modelu — jest już coś budowanego od środka pod nasz język.

Ciekawy jestem, czy ktoś już próbował hostować Bielika w produkcji — jakie mieliście pierwsze wrażenia ze 100% polskim LLM na własnym serwerze?

#AI #Automatyzacja #Technologia #Biznes #Innowacje