Bielik v3 — nowa wersja polskiego LLM z zoptymalizowanym tokenizerem. 12 kwietnia 2026 ukazał się paper na arXiv opisujący Bielik v3 7B i 11B z dedykowanym słownikiem polskim (FOCUS-based embedding, multi-stage pretraining, DPO + RL). To pierwszy open-source LLM, który traktuje język polski priorytetowo na poziomie architektury — małe firmy IT mogą go hostować lokalnie bez kosztów API.
Polski open-source LLM, który wreszcie traktuje polski jak pierwszy język — nie jako dodatek do angielskiego.
Bielik v3 ukazał się 12 kwietnia na arXiv jako dwa modele: 7B i 11B parametrów. Jeden szczegół robi tu całą różnicę: zamiast używać tokenizera zaprojektowanego pod angielski (jak Mistral czy Llama), autorzy zbudowali słownik od zera pod morfologię polskiego. To ważne, bo standardowe modele "nie rozumieją" fleksji — traktują "zamówiłem", "zamówiłam", "zamówię" jak zupełnie obce słowa. Dedykowany tokenizer redukuje tę fragmentację, co przekłada się na krótsze sekwencje, mniej obliczeń i lepsze rozumienie tekstu.
Za kulisami: wieloetapowe pretraining na polskim korpusie, potem dostrajanie przez DPO i uczenie ze wzmocnieniem (to taki sposób, żeby model uczył się co jest "dobrą" odpowiedzią, nie tylko co jest "prawdopodobną"). Efekt to model, który nie tylko mówi po polsku, ale myśli w strukturach charakterystycznych dla polszczyzny.
Co to zmienia dla małej firmy IT? Przede wszystkim: można to uruchomić lokalnie. 7B bez problemu chodzi na jednej karcie graficznej z 16 GB VRAM, 11B na dwóch lub na serwerze z wolną pamięcią. Zero opłat za API, zero danych wysyłanych na zewnątrz. Dla firm, które przetwarzają umowy, faktury czy maile klientów — to istotne.
Projekt jest open-source, dostępny na Hugging Face. Nie trzeba czekać na polską wersję jakiegoś zagranicznego modelu — jest już coś budowanego od środka pod nasz język.
Ciekawy jestem, czy ktoś już próbował hostować Bielika w produkcji — jakie mieliście pierwsze wrażenia ze 100% polskim LLM na własnym serwerze?
#AI #Automatyzacja #Technologia #Biznes #Innowacje
Powiązane artykuły
Chatboty, generatory treści, analityka social media, prognozowanie popytu: większość narzędzi AI dla MŚP jest dostępna w modelu SaaS z darmowym planem testowym.
Rynek sztucznej inteligencji w Polsce 2026: firmy deklarują inwestycje, ale nie są gotowe na skalę...Odsetek firm w pełni gotowych na wdrożenie AI w Polsce spadł z 11,8% do 10,2% między 2024 a 2026 rokiem.
n8n publikuje 30 kwietnia praktyczny przewodnik 'LLM tool calling' — jak zamienić zwykły chat AI w agenta wykonującego konkretne kroki w workflow. n8n 2.0 ma już 70+ nodów LangChain, integrację z Ollamą i brak per-step timeout. Konkretna alternatywa do Zapiera, którą mała firma IT może self-hostować dla klienta.n8n 30 kwietnia opublikował przewodnik po LLM tool calling, czyli jak z chata AI zrobić agenta, który faktycznie wykonuje kroki w workflow. Wersja 2.0 ma 70+ no