Privabon AI • Statistici

Tabel lista modele AI si rezultate testelor efectuate

Nume Model	Test BLEU	Test MBPP	Test ARC CHALLENGE	Test ARC EASY	Test BELEBELE	Test RoMedQA	Medie Aritmetica

Click pe coloană pentru sortare

Grafic Rezultate Modele Inteligenta Artificiala (%)

Testeaza Privabon cu setul tau de date.

Daca ai un set de date si doresti sa testezi Privabon V1 (Deepseek-r1-0528-qwen3-8b), poti sa o faci chiar acuma, iar rezultatele vor fi disponibile in cel mai scurt timp. De cele mai multe ori testele se pot face si in timp real, in functie de numarul de utilizatori si de resursele disponibile. Pentru a proteja resursele echipamentelor si al serverelor, setul de date NU este permis ca sa fie mai mari de 25 de intrebari si raspunsuri din limba romana.

Procesul de testare este disponibil doar dupa ce esti autentificat, masura luata pentru a putea prevenii abuzul si consumul resurselor serverelor noastre. Totodata poti testa si alt model disponimil in hugging face cu setul nostru de date (exact aceleas date cu care s-a testat si privabon v1). Testele se efectueaza in timp real (in functie de resursele disponibile), insa pot dura deoarece dureaza pana se descarca modelul si sunt facute mai multe teste - cele mentionate in tabel.

NOTA: Doar modelele la care exista acces se pot testa, va rugam sa verificati inainte fiecare model de inteligenta artificiala inainte de a dori sa o testati!

Autentifica-te si urmareste instructiunile pentru a putea efectua aceste teste.

Resursele si Testele efectuate.

Test BLEU

Ce este un test BLEU

Este o metodă standard de evaluare a calității traducerii automate sau al unui model de generare a textului. Practic testul BLEU măsoară cât de apropiat este textul generat de un model de inteligenta artificiala

Unde se utilizeaza un test BLEU

Traducere automată
Generare text (de ex. un model care scrie descrieri de produse comparat cu textele umane).
Rezumat automat (se verifică cât de bine corespunde rezumatul generat cu unul de referință).

Descarca script test BLEU (Python)

Acest script a fost folosit pentru testele BLEU pentru modelele testate de catre privabon.

Cum utilizam scriptul de test BLEU?

Pentru rularea acestui script s-a folosit un sistem de operare Ubuntu cu un minim de 24 GB VRAM, un minim de 32 GB RAM si un procesor i7 de la intel.

Dependintele care sunt necesare instalarii acestui script sunt:
- pip install openai==0.28
- pip install evaluat
- pip install nltk absl-py rouge_score
- pip install nltk absl-py rouge_score sacrebleu
- pip install sentencepiece protobuf

Comanda propriuzisa de rulare:
python3 bleo-rouge.py 1|0 dataset.json

Descarca Dataset:

Test MBPP

Ce este un test MBPP

Este un benchmark folosit pentru a evalua performanța modelelor de inteligență artificială, în special a celor de tip large language models (LLMs), în rezolvarea problemelor de programare, de obicei probleme din limbajul de programare Python.

Unde se utilizeaza un test MBPP

In cercetarea și evaluarea modelelor AI specializate pe generarea de cod pentru a putea evalua cat de bine se genereaza acea secventa de cod.

Descarca script test MBPP (Python)

Acest script a fost folosit pentru testele MBPP pentru modelele testate de catre privabon.

Cum utilizam scriptul de test MBPP

Dependintele care sunt necesare instalarii acestui script sunt:
pip install openai==0.28
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
pip3 install torch torchvision torchaudio
pip install transformers peft accelerate openai
pip install torch transformers peft accelerate

Comanda propriuzisa de rulare:
python3 eval_mbpp.py --engine openai --model gpt-4 / gpt-3.5-turbo
python3 eval_mbpp.py --engine local --base_model "denumire model" --model_path "cale LORA"
python3 eval_mbpp.py --engine local --base_model "denumire model" --json_path dataset_ro.json

Descarca Dataset:

Test ARC CHALLENGE & EASY

Ce este un test ARC CHALLENGE & EASY

Este un set de întrebări tip quiz educațional din diferite domenii, de nivel gimnazial, conceput pentru a fi semnificativ mai dificil pentru modele AI decât benchmark-uri anterioare precum SQuAD sau SNLI

Easy Set: întrebări mai simple, pe care modelele bazate pe recuperare de informații și frecvența apariției cuvintelor le pot rezolva mai ușor. In general intrebari de clasa III - IX

Challenge Set: întrebări mai dificile, care au fost greșite de algoritmi de tip retrieval-based și de modele bazate pe co-ocurență. Sunt intrebari de regula la un nivel de peste clasa IX-a.

Unde se utilizeaza un test ARC

ARC este folosit de comunitatea de cercetare pentru a testa modele de procesare a limbajului natural (NLP), în special în zona „open‑book question answering” (întrebări deschise cu multiple variante de răspuns)

Descarca scripturile test ARC (Python)

Aceste scripturi au fost folosit pentru testele ARC (challenge & easy) pentru modelele testate de catre privabon.

Cum utilizam scriptul de test ARC

Dependintele care sunt necesare instalarii acestui script sunt:
pip install tiktoken
pip install tiktoken protobuf
transformers-cli cache clear
pip install blobfile
pip install sentencepiece

Comanda propriuzisa de rulare:
python3 eval_arc.py

Descarca Dataset:

Test BELEBELE

Ce este un test BELEBELE

Este un benchmark folosit în evaluarea modelelor mari de limbaj (LLMs), în special pentru a măsura performanța acestor modele de ai, în înțelegerea limbilor africane cu resurse reduse. BELEBELE este un set de date multilingv și un benchmark de înțelegere a limbii, dezvoltat de Meta AI (în 2023).

Unde se utilizeaza un test BELEBELE

BELEBELE este un test de inteligenta artificiala folosit de cercetători și dezvoltatori de modele AI în medii de cercetare și evaluare tehnică ale modelelor de ai.

Descarca script test BELEBELE (Python)

Acest script a fost folosit pentru testele BELEBELE pentru modelele testate de catre privabon.

Cum utilizam scriptul de test BELEBELE

Dependintele care sunt necesare instalarii acestui script sunt:
pip install openai==0.28

Comanda propriuzisa de rulare:
python3 eval_belebele.py --data "cale_fisier_jsonl" --provider openai --model "gpt-3.5-turbo" --rate-limit 2 --device-map cuda:0 --out-prefix belebele_eva_gpt3_5
python3 eval_belebele.py --data "cale_fisier_jsonl" --provider hf --model "cale_model_hf" --lora-path "cale_lora_daca_exista" --dtype bfloat16 --device-map cuda:0 --method generate --max-new-tokens 8 --use-chat-template --out-prefix belebele_eval_nume_model

Descarca Dataset:

Test RoMedQA

Ce este un test RoMedQA

Testul RoMedQA este un set de date (dataset) românesc dedicat evaluării modelelor de inteligență artificială în domeniul medical, practic RoMedQA este primul dataset în limba română ce conține întrebări medicale de tip alegere multiplă, inspirate din examenele de admitere la facultățile de medicină din România.

Unde se utilizeaza un test RoMedQA

Este folosit pentru antrenarea și testarea modelelor LLM (Large Language Models) în limba română, pe domeniul medical, evaluând atât cunoștințe medicale, cât și înțelegere lingvistică specifică acestui context

Descarca script test RoMedQA (Python)

Acest script a fost folosit pentru testele RoMedQA pentru modelele testate de catre privabon.

Cum utilizam scriptul de test RoMedQA

Dependintele care sunt necesare instalarii acestui script sunt:
python -m pip install pandas
pip install datasets transformers accelerate
pip install "transformers>=4.42" "torch" "peft>=0.11" "scikit-learn" pandas
pip install "openai>=1.0"

Comanda propriuzisa de rulare:
python3 eval_romedqa_privabon_all.py --provider openai --openai-model "gpt-3.5-turbo" --openai-api-key "sk-proj-*****" --data-jsonl "cale_fisier_json" --prompt-field "question" --gold-field "answer" --max-items 150 --log-every 2
python3 eval_romedqa_privabon_all.py --base-model "denumire_model_hf" --lora-adapter "cale_lora_daca_exista" --data-jsonl "cale_fisier_json" --prompt-field "question" --gold-field "answer" --max-items 150 --log-every 2
python3 eval_romedqa_privabon_all.py --base-model "denumire_model_hf" --lora-adapter "" --data-jsonl "cale_fisier_json" --prompt-field "question" --gold-field "answer" --max-items 150 --log-every 2

Descarca Dataset:

Descarca Lora Privabon

Descarca LORA (LORA) v1 - Deepseek-r1-0528-qwen3-8b si urmareste pasii necesari pentru a putea sa il instalezi local.