Tabelul și graficul de mai jos afișează datele privind testele efectuale pe o serie de modele romanesti (open source), dar si pe modele comerciale. Toate testele au fost facute pe seturi de date romanesti si se pot descarca in mod gratuit.
Tabel lista modele AI si rezultate testelor efectuate
Daca ai un set de date si doresti sa testezi Privabon V1 (Deepseek-r1-0528-qwen3-8b), poti sa o faci chiar acuma, iar rezultatele vor fi disponibile in cel mai scurt timp. De cele mai multe ori testele se pot face si in timp real, in functie de numarul de utilizatori si de resursele disponibile. Pentru a proteja resursele echipamentelor si al serverelor, setul de date NU este permis ca sa fie mai mari de 25 de intrebari si raspunsuri din limba romana.
Procesul de testare este disponibil doar dupa ce esti autentificat, masura luata pentru a putea prevenii abuzul si consumul resurselor serverelor noastre. Totodata poti testa si alt model disponimil in hugging face cu setul nostru de date (exact aceleas date cu care s-a testat si privabon v1). Testele se efectueaza in timp real (in functie de resursele disponibile), insa pot dura deoarece dureaza pana se descarca modelul si sunt facute mai multe teste - cele mentionate in tabel.
NOTA: Doar modelele la care exista acces se pot testa, va rugam sa verificati inainte fiecare model de inteligenta artificiala inainte de a dori sa o testati!
Autentifica-te
si urmareste instructiunile pentru a putea efectua aceste teste.
Resursele si Testele efectuate.
Test BLEU
Ce este un test BLEU
Este o metodă standard de evaluare a calității traducerii automate sau al unui model de generare a textului. Practic testul BLEU măsoară cât de apropiat este textul generat de un model de inteligenta artificiala
Unde se utilizeaza un test BLEU
Traducere automată
Generare text (de ex. un model care scrie descrieri de produse comparat cu textele umane).
Rezumat automat (se verifică cât de bine corespunde rezumatul generat cu unul de referință).
Descarca script test BLEU (Python)
Acest script a fost folosit pentru testele BLEU pentru modelele testate de catre privabon.
Cum utilizam scriptul de test BLEU?
Pentru rularea acestui script s-a folosit un sistem de operare Ubuntu cu un minim de 24 GB VRAM, un minim de 32 GB RAM si un procesor i7 de la intel.
Dependintele care sunt necesare instalarii acestui script sunt:
- pip install openai==0.28
- pip install evaluat
- pip install nltk absl-py rouge_score
- pip install nltk absl-py rouge_score sacrebleu
- pip install sentencepiece protobuf
Comanda propriuzisa de rulare:
python3 bleo-rouge.py 1|0 dataset.json
Descarca Dataset:
Test MBPP
Ce este un test MBPP
Este un benchmark folosit pentru a evalua performanța modelelor de inteligență artificială, în special a celor de tip large language models (LLMs), în rezolvarea problemelor de programare, de obicei probleme din limbajul de programare Python.
Unde se utilizeaza un test MBPP
In cercetarea și evaluarea modelelor AI specializate pe generarea de cod pentru a putea evalua cat de bine se genereaza acea secventa de cod.
Descarca script test MBPP (Python)
Acest script a fost folosit pentru testele MBPP pentru modelele testate de catre privabon.
Cum utilizam scriptul de test MBPP
Dependintele care sunt necesare instalarii acestui script sunt:
pip install openai==0.28
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
pip3 install torch torchvision torchaudio
pip install transformers peft accelerate openai
pip install torch transformers peft accelerate
Comanda propriuzisa de rulare:
python3 eval_mbpp.py --engine openai --model gpt-4 / gpt-3.5-turbo
python3 eval_mbpp.py --engine local --base_model "denumire model" --model_path "cale LORA"
python3 eval_mbpp.py --engine local --base_model "denumire model" --json_path dataset_ro.json
Descarca Dataset:
Test ARC CHALLENGE & EASY
Ce este un test ARC CHALLENGE & EASY
Este un set de întrebări tip quiz educațional din diferite domenii, de nivel gimnazial, conceput pentru a fi semnificativ mai dificil pentru modele AI decât benchmark-uri anterioare precum SQuAD sau SNLI
Easy Set: întrebări mai simple, pe care modelele bazate pe recuperare de informații și frecvența apariției cuvintelor le pot rezolva mai ușor. In general intrebari de clasa III - IX
Challenge Set: întrebări mai dificile, care au fost greșite de algoritmi de tip retrieval-based și de modele bazate pe co-ocurență. Sunt intrebari de regula la un nivel de peste clasa IX-a.
Unde se utilizeaza un test ARC
ARC este folosit de comunitatea de cercetare pentru a testa modele de procesare a limbajului natural (NLP), în special în zona „open‑book question answering” (întrebări deschise cu multiple variante de răspuns)
Descarca scripturile test ARC (Python)
Aceste scripturi au fost folosit pentru testele ARC (challenge & easy) pentru modelele testate de catre privabon.
Cum utilizam scriptul de test ARC
Dependintele care sunt necesare instalarii acestui script sunt:
pip install tiktoken
pip install tiktoken protobuf
transformers-cli cache clear
pip install blobfile
pip install sentencepiece
Comanda propriuzisa de rulare:
python3 eval_arc.py
Descarca Dataset:
Test BELEBELE
Ce este un test BELEBELE
Este un benchmark folosit în evaluarea modelelor mari de limbaj (LLMs), în special pentru a măsura performanța acestor modele de ai, în înțelegerea limbilor africane cu resurse reduse. BELEBELE este un set de date multilingv și un benchmark de înțelegere a limbii, dezvoltat de Meta AI (în 2023).
Unde se utilizeaza un test BELEBELE
BELEBELE este un test de inteligenta artificiala folosit de cercetători și dezvoltatori de modele AI în medii de cercetare și evaluare tehnică ale modelelor de ai.
Descarca script test BELEBELE (Python)
Acest script a fost folosit pentru testele BELEBELE pentru modelele testate de catre privabon.
Cum utilizam scriptul de test BELEBELE
Dependintele care sunt necesare instalarii acestui script sunt:
pip install openai==0.28
Testul RoMedQA este un set de date (dataset) românesc dedicat evaluării modelelor de inteligență artificială în domeniul medical, practic RoMedQA este primul dataset în limba română ce conține întrebări medicale de tip alegere multiplă, inspirate din examenele de admitere la facultățile de medicină din România.
Unde se utilizeaza un test RoMedQA
Este folosit pentru antrenarea și testarea modelelor LLM (Large Language Models) în limba română, pe domeniul medical, evaluând atât cunoștințe medicale, cât și înțelegere lingvistică specifică acestui context
Descarca script test RoMedQA (Python)
Acest script a fost folosit pentru testele RoMedQA pentru modelele testate de catre privabon.
Cum utilizam scriptul de test RoMedQA
Dependintele care sunt necesare instalarii acestui script sunt:
python -m pip install pandas
pip install datasets transformers accelerate
pip install "transformers>=4.42" "torch" "peft>=0.11" "scikit-learn" pandas
pip install "openai>=1.0"
Folosim cookie-uri pentru a îmbunătăți performanța site-ului, a personaliza conținutul și a analiza traficul. Pentru detalii, vă rugăm să consultați secțiunea noastră GDPR si Politica Google.