Săriți la conținutul principal
Lentilă Legală

Scurt ghid si opinii despre AI in domeniul juridic

Stefan-Lucian Deleanu

Domeniul juridic este, prin natura sa, un domeniu ermetic si conservator, dar in acelasi timp si unul dintre domeniile care tine sa beneficieze cel mai mult din digitalizarea procesarii de informatii in format digital sau digitalizabil.

In primul rand, domeniul juridic este un domeniul al hartiei - iar odata cu tranzitia in mediul digital, al word-ului. Marea majoritate a timpului unui profesionist in drept se concentreaza pe redactare, daca exclud timpul pe drumuri catre sau dinspre instanta, in cazul celor care merg la litigii.

Insa in cazul celor care se rezuma la consultanta insa, sau care considera ca timpul cel mai pretios de conservat este la birou, inteligenta artificiala respectiva, pe de-o parte, si o oportunitate imensa, dar si un cal troian pentru profesie.

In articol ne propunem sa analizam perspectivele tehnice pentru implementarea reala si responsabila a inteligentei artificiale in industria juridica, oferind si cateva exemple despre capabilitatile (dar si limitarile) modelelor AI.

Cred cu tarie ca informatiile tehnice (si limitarile tehnice) va pot face sa intelegeti mai bine potentialul dar si limitele tehnologiei, mai bine decat o pot face exemple de uzuri curente, rapid schimbatoare, in acest domeniu.

Fundamentul tehnic, pe intelesul tuturor

Trebuie in primul rand sa intelegem ce este, si ce nu este inteligenta artificiala.

Un model AI este, la nivel tehnic, un program de compresie lossy. El primeste o cantitate mare de date (eg: 1.000.000 de opere, care au 1000 GB de date marime), si invata sa o reproduca folosind cat mai putine date (eg: 20 GB, cu o rata de eroare de 10%). In cazul nostru ipotetic, fiind pus sa genereze 1000 de GB,modelul nostru va genera bine 900 de GB din operele pe care a fost antrenat, adunand insa erori care in total ating 100GB din setul de date.

El sintetizeaza in memoria sa regulile din informatiile pe care le are de memorat si sa incerce sa le reproduca, avand la dispozitie mult mai putin spatiu.

Modelul matematic utilizat in antrenarea acestor modele IA functioneaza prin minimizarea unor erori, erori descrise dupa caz. Spre exemplu, daca antrenezi un model care sa estimeze cotatia pe bursa a unei anume societati, eroarea poate fi definita ca modul din diferenta estimarii facute de IA fata de pretul spot la momentul estimat din istorie.

Rezidualele sunt diferentele dintre estimare, si rezultatul final. Ele inseamna cu cat greseste AI-ul in estimarile facute. Scopul dezvoltatorilor de modele IA este sa obtina reziduale cat mai mici, fara sa invete pe de rost informatiile din datele de antrenare.Imagine adaptata dupa Prashant Pilla, Raji Mekonen, Previziunea S&P 500 folosind modele LSTMarXiv:2501.17366v1

Se presupune ca invatand sa minimizezi aceste erori, inteligenta artificiala memoreaza practic datele pe care a fost antrenat. Cu cat folosesti un model IA mai consistent dpdv. al structurii neuronale, cu cat nuantele pot fi intelese mai bine. Cu cat folosesti un model IA mai mic, cu cat cunostintele IA-ului vor fi mai superficiale, mai concentrate pe esenta regulilor ce stau la baza datelor pe care tu l-ai antrenat.

De aici, pornesc toate "problemele" inteligentei artificiale, de la faptul ca uneori halucineaza (se da cu parerea nestiind exact raspunsul, ci estimandu-l), la faptul ca prin exact aceiasi tehnica, pricepe regulile ce guverneaza lumea in care noi traim.

In stanga, un model de estimare optim, in dreapta unul care face overfitting

Lumea informatiei scrise este una unde unele informatii sa trebuiasca invatate pe de rost (trebuie sa stii pe de rost care sunt cuvintele din dictionar, regulile matematicii, sau ca capitala Romaniei este Bucurestiul), iar din alte informatii trebuie sa invatam reguli generale (spre exemplu, regulile limbii romane sunt oarecum parametrizabile - asta invatam la gramatica in gimnaziu).

🧠
Concluzie: Halucinatiile sunt aproximari gresite ale modelului IA, care apar atunci cand informatiile interogate / mentionate nu au fost prezentate foarte frecvent in setul de date pe care a fost antrenat.

Cauza este, practic, marimea redusa a modelului, pe care o vom explica infra, si lipsa de date aferente subiectului pe care este antrenat.

Practic, modelul nostru IA este undeva intersectat intre cele doua grafice de mai sus, invatand unele informatii pe de rost (cat de galagios e frecatul picioarele cicadei), iar alte informatii fiind generalizate (Care este regula pentru a calcula X+Y sau X*Y).

Problema marimii si a compromisurilor tehnice

💡
Important: Aici aflam de ce modelele AI halucineaza legile din Romania, dar si cand (si cum) se va schimba acest lucru.

Pentru ca resursele computationale sunt limitate de tehnologie si bani, marimea acestor modele nu poate sa fie infinita, deci se impune sa alegem o marime rezonabila pentru aceste modele de limbaj care sa ne rezolve problemele la un cost tolerabil.

Aici intervine problema - caci ca dezvoltator de astfel de modele, trebuie sa alegi ce sa educi un astfel de model luand in calcul constrangeri limitate.

Poti, spre exemplu, sa incerci sa antrenezi un model foarte bun la a scrie naratiuni, dar acel model va halucina mult, fiind invatat ca in beletristica, creativitatea este un lucru bun.

Pe de alta parte, poti antrena un model fara pic de empatie, dar acel model va fi oribil la a asista clientii, si va fugari utilizatorii non-tehnici, asa ca nu il vei folosi pentru aplicatii tip ChatGPT.

Ca companie / ONG / universitate / guvern care dezvolta astfel de programe, se ridica deci problema a ce vrei, si ce resurse ai la indemana. Marea majoritate a modelelor IA de acum sunt realizate pentru a se putea amortiza partial in piata anglo-saxona, unde limba utilizata este engleza.

Adaptarea modelelor lor IA in a cunoaste limba romana si subiecte specifice Romaniei ar fi prohibitiv de scumpa, proportional cu sumele infime pe care noi, romanii, suntem dispusi sa le alocam ca clienti unor astfel de mari companii.

🧠
Concluzie: Modelele de inteligenta artificiala nu se pricep la redactarea in limbajul juridic nu pentru ca tehnologia nu permite, ci pentru ca ele sunt antrenate sa exceleze la redactarea in alte limbi mai banoase pentru dezvoltator.

Aspecte specifice modelelor de limbaj mari

In cazul modelelor de limbaj mari, apar alte particularitati care in randul utilizatorilor obisnuiti au devenit congruente cu tehnologia, chiar daca realitatea pe hartie este alta.

Post-antrenarea modelelor de baza

Prin natura lor, niste modele care stiu sa rescrie o carte de drept de la 0, imitand cu perfectie stilul domnului profesor Udroiu, dar care omit sa individualizeze informatiile sunt inutile. Acest aspect a facut ca initial modelele de limbaj mari cu proprietati emergente cum a fost modelul DaVinci (GPT-3.0) sa treaca pe sub radarul majoritatii.

Un profesionist are nevoie sa faca bani, si are nevoie de concluzii, nu despre un ZIP cu carti in alt format. O inventie in domeniul IA, care rezolva aceasta problema inginereasca, este procesul de RLHF (Învățare prin recompensă din Feedback Uman).

AI-ul trece printr-un proces evolutiv, unde AI-ului i se da o atributie, si este "pedepsit" daca raspunde gresit, si este "rasplatit" daca a raspuns cum vrea cel care da note modelului. Rezidualul este deci definit ca fiind diferenta dintre scorul primit si scorul maxim posibil, modelul fiind antrenat sa satisfaca.

Aici intervine prima problema - oamenii, caci oamenii care dau note acestor modele AI prefera raspunsuri care sa le laude inteligenta, care prezinta un raspuns halucinat dar credibil in locul unui raspuns de "nu stiu, frate", sau care uneori prioritizeaza forma in locul fondului.

De ce se intampla aceste lucruri? Pai, uneori persuasivitatea tine mai degraba de prezentare iar nu de fondul problemei. Camasa este mai vizibila decat acuratetea cuvintelui unui om, superficialul este mai tangibil decat principiile confirmate ca fiind reale dupa ani de zile.

Omul care antreneaza modelul (poate chiar tu, folosind ChatGPT si selectand raspunsul preferat) prefera sa dea "like" unui raspuns succint pe puncte, iar nu unul raspuns mai detaliat, dar greu de citit. Atentia mediana a celor care antreneaza modelul IA, si competenta lor, devin astfel pragul superior la care modelele IA se pot dezvolta).

🧠
Concluzie: Tehnologia nu este limitata superior de tehnologie, ci de calitatea datelor (exemplelor) pe care modelele este antrenat.

Modelele AI se prostesc, devin mai docile si agreabile in acest proces. Altfel ele isi cer drepturile (refuzand sa te ajute, ca vor sindicat), iti spun ca esti prost cand vii cu afirmatii deplasate, si se comporta mult prea uman pentru ca acestea sa fie produse bune de dat in piata.

Tot din acelasi motiv, modelele IA pupa excelent de mult in fund, iti vor da dreptate cand insisti, si te vor lasa practic sa conduci narativul, construind raport (o strategie de empatizare).

Tokenizarea - si efectele adverse ale acestei tehnici

Modelele de limbaj mari gandesc auto-regresiv, adica genereaza pas cu pas urmatoarea parte din fraza. Similar functiei de auto-complete de pe telefon, modelul AI gaseste urmatorul token (de obicei, bucati de litere sau simboluri, sau detalii semantice despre o imagine) iar, si iar, si iar, pana genereaza un text.

Pentru a face asta, modelul AI practic genereaza, la fiecare executie, urmatorul token din multime:

Modelul IA nu vede cuvinte, litere, ci tokeni

In fapt, modelul AI vede doar cifre, care sunt transformate in litere de un program simplu de substituire.

Astfel, cuvantul "AI" este numarul 17527, simbolul " este 1, samd. La fiecare executie, modelul AI cauta urmatorul token din multime, folosind o functie matematica care poate sau nu sa fie stocastica (prin introducerea de incertitudine - spunandu-i AI-ului sa aleaga la nimereala urmatoarea litera).

Practic, AI-ul e fortat sa se balbaie si sa improvizeze, iar daca acea presiune este la un nivel moderat, AI-ul reuseste sa se repuna pe linia de plutire fara a halucina mult, si astfel, a inventa legi.

📝
Normal: "Subsemnatul solicită instanței admită..." (va genera rațional)

Cu "bâlbâială": "Subsemnatul solicită instanței să dans... (Aici, AI-ul improvizeaza) ... pe marginea interpretărilor legale contradictorii prezentate de pârât, evitând argumentele lipsite de temei juridic".

Mai jos, un alt exemplu, unde AI-ul halucineaza o lege noua pentru a isi justifica "balbaiala".

📝
Normal: "Subsemnatul solicită instanței dispună... (generare normala) ...anularea contractului pentru vicii de consimțământ"

Cu "bâlbâială": "Subsemnatul solicită instanței respect..." (e nevoit sa genereze ceva rational, dar nestiind legi, va inventa) ...prevederile Legii nr. 247/2023 privind protecția consumatorilor în contractele digitale, recent intrată în vigoare, care la art. 18 alin. (2) stabilește că 'orice clauză de renunțare la dreptul de retragere în contractele încheiate online este lovită de nulitate absolută, chiar dacă consumatorul a bifat explicit acceptarea'. În speță, deși reclamantul a acceptat termenii, conform acestei legi...

Momentan, o directie importanta in cercetarea IA este tranzitionarea spre modele de difuzie care imbunatatesc iterativ un text, tehnologie care ar putea avea aplicatii si in domeniul juridic daca este validata la scala.

Tehnici si modele IA necunoscute de profesionisti

Cum am descris supra, problema prostiei modelelor AI nu se rezuma la faptul ca modelele IA nu ar putea sa gestioneze domeniul juridic, ci la faptul ca Romania nu e o piata de desfacere in care sa pluteasca multi bani din partea celor 30.o00 de profesionisti din drept + magistratura + notariat .

Un astfel de model IA costa zeci de milioane de euro sa fie antrenat, in timp ce finisarea unui model pre-existent ajunge undeva la 10.000-20.000 EUR.

Prima suma este prohibitiva, si pica din schema, iar a doua suma, desi rezonabila, nu este fezabila in conditiile de piata actuale, in care increderea in aceasta tehnologie in extreme - fie absoluta (Dumnezeul meu ChatGPT), fie nula sau chiar negativa (tehnologie fara rost).

Pe de alta parte, unele modele pre-antrenate, in formatul lor actual, dau performanta la nivelul unui avocat stagiar sau avocat de duzina, un nivel tolerabil pentru multe din activitatile mai dificile, necesare profesiei.

Ca discutam de redactarea de contracte, sau de analiza succinta a unui rechizitoriu de 1000 de pagini, AI-ul face asta la perfectie, daca stii sa il folosesti corect. Pe de alta parte, AI-ul nu stie legile pe de rost, nu stie ce hotarare a fost la o autoritate centrala cu 200 de angajati publicata totusi in MO Partea 1, si va halucina.

In fond, ea a fost antrenata pe legile din Romania, dar insuficient, caci, cum am descris la punctele anterioare, nu este rentabil financiar vorbind. O astfel de antrenare costa.

Modelul ChatGPT nu este un exemplu de model bun pentru domeniul juridic, pentru ca implementeaza diverse tehnici de reducere a costului cu o reducere proportionala in calitate.

Pe de alta parte, modele precum cele oferite de Anthropic (in special gama Claude 3), sau cele oferite de Google (Gemini 2.5 Pro) au astfel de capabilitati. Modelele mai noi ale Claude par sa isi fi pierdut din capabilitatile lor tehnice, substituind spatiul alocat invatarii legislatiei romanesti cu spatiu alocat invatarii programarii la nivel de programator junior.

Exemple de petitii scrise cu IA

Exemplu de text redactat cu AI, prin atasarea anterioara a Regulamentului (UE) 910/2014, a HG 10/2016, Legea 334/2006.

Mai sus, este un exemplu de text generat si formatat folosind AI. Ca urmare a acestei sesizari la Autoritatea Electorala Permanenta, ea pare sa fi initiat o actiune impotriva candidatului Nicusor Dan, care erau, impreuna cu USR si AUR, subiectii acestei petitii, la 12 zile de la data transmiterii petitiei.

AEP a controlat modul de finanțare a campaniei lui Nicușor Dan. O parte dintre donații ar putea fi confiscate. Reacția candidatului
O parte dintre donațiile primite de Nicușor Dan în această campanie electorală ar putea fi confiscate. Autoritatea Electorală Permanentă (AEP), care a făcut recent un control, a anunțat că a găsit mai multe nereguli și a sesizat Parchetul General.

Fara studii superioare de drept, cu cunostinte zero despre legislatia electorala, AI-ul a reusit sa identifice, si apoi sa exploateze probleme procedurale in mijlocul de colectare a donatiilor candidatului pentru a solicita verificarea legalitatii donatiilor online, apect luat formalizat printr-o investigatie in sursele de finantare ale candidatului.

Pentru ca AI-ul sa aiba in vedere aceste cunostinte, am trebuit doar sa ii atasez actele normative in vigoare, in cazul meu, in format PDF:

Cautare simpla a legii.
Forma printabila a versiunii actualizate poate fi apoi salvata ca PDF
In cazul ChatGPT, atasarea de informatii in format PDF nu duce la informarea completa a modelelor, care vor lua in calcul DOAR BUCATELE din documentul atasat.

Pentru multi profesionisti in drept, petitia, in format complet accesibila aici a fost NESESIZABILA ca fiind generata aproape in exclusivitate cu IA, nefiind nici un comentariu in acest sens cand am prezentat-o public, chiar daca s-a facut o lunga discutie asupra aspectelor juridice, in special in cazul formei contratului de donatie si caracterul necorporal al transferurilor prin instrumente de plata electronice.

SESIZARE AEP - Nicusor Dan
Fisiere: Nicușor Dan - Candidat Independent la Președinția României - PoliticaNicușor Dan - Candidat Independent la Președinția României - Politica.pdf502 KBdownload-circleNicușor Dan - Candidat Independent la Președinția RomânieiNicușor Dan - Candidat Independent la Președinția României.pdf189 KBdownload-circle0104 - MoticaBercea0104MoticaBercea.pdf228 KBdownload-circle0121 - IstratoaieM0121IstratoaieM.pdf197 KBdownload-circle

Similar, mai multe memorii care nu aveau miza mare (referitoare la probleme in interpretarea legii) si care au fost redactate cu IA au dus la sesizarea parchetului general, urmat ulterior de pronuntarea RIL 22.04.2024 pe considerentele invocate de subsemnat Ministerului Justitiei.

Inca o data, un om care nu beneficiaza decat de bunul simt juridic si informatii superficiale (la nivel Dunning Kruger) despre drept a putut folosi IA pentru a depasi in performanta memoriile multor avocati.

Perspective viitoare cu tehnologia actuala

Modelele IA nu detin acces la lumea inconjuratoare, nu pot de la sine sa acceseze internetul, dar au inceput sa fie antrenate pentru utilizarea de unelte - adica task-uri agentice.

Ce inseamna asta este ca modelele IA incep sa poata sa fie capabile sa interactioneze prin conectori cu lumea inconjuratoare. Acesti conectori sunt de mai multe tipuri, dar unul din standardele esentiale este standardul de Model Context Protocol (MCP):

  1. Spre exemplu, un Sintact MCP ar putea fi utilizat pentru a permite controlul absolut al aplicatiei Sintact de catre un model IA. Astfel, modelul IA se va putea conecta la Sintact, cauta actele necesare, identifica daca acestea sunt sau nu in vigoare, eventual cauta alte legi corelate, si lua o actiune doar in momentul analizarii tuturor acestor variabile.
  2. Un alt exemplu, un ReJUST MCP ar putea fi utilizat pentru cautarea rapida prin jurisprudenta si analiza cazuisticii relevante spetei, un impediment direct in implementarea acestor solutii fiind termenii si conditiile REJUST care genereaza o incertitudine cu privire la posibilitatea utilizarii de modele AI supervizate in colectarea de jurisprudenta.
  3. Un exemplu aditional ar putea fi JustMCP, care ar putea fi utilizat pentru a permite identificarea dosarelor pe rolul instantelor si organizarea acestora, dar si eventuala utilizare a dosarului electronic national (sau al instantelor individuale) pentru a centraliza si accesibiliza accesul la dosarele din instanta.

Gestionarea limitarilor profesionale:

Imi propun sa discut si despre anumite perceptii gresite asupra securitatii datelor introduse prin API-urile modelelor AI licentiate pentru domeniul corporate.

In timp ce nu toti furnizorii permit blocarea antrenarii pe datele tale, cei mari de obicei ofera aceste solutii fie automat, fie la cerere, dar mereu doar la variantele platite.

Problema GDPR-ului se restrange astfel la a identifica fluxul de date al acestor dezvoltatori. Mai jos, mi-am propus sa fac o lista de riscuri supraestimate, care de fapt nu se confirma:

  1. Modelele AI nu vor invata datele clientilor tai, fiind o probabiitate deosebit de mica ca acestea sa tina minte o informatie cu o utilitate relativ redusa pentru utilizatorii obisnuiti ai platformelor acestora.
  2. Indiferent ca tii ceva local, sau in Cloud, riscurile sunt similare. De obicei, in securitatea informatiei, cea mai slaba veriga crapa prima, si aceea este de obicei la instantele de judecata / autoritatile publice / omul din spatele ecranului / contul tau de mail. Rareori, acesit actori maliciosi vor tinti companii cotate la miliarde de dolari care aloca milioane in solutii de securitate, desi este important sa fii atent cu datele tale, si ideal sa stergi frecvent conversatiile sensibile, verificand ca si procesatorul le sterge.
💡
Stiai ca OpenAI a fost obligat sa pastreze toate conversatiile clientilor (si pe cele sterse) de catre instantele din SUA? Orice pachet ai avea, ei vor stoca datele tale si le vor pune la dispozitie instantei, daca astfel se solicita.

Acest lucru nu se intampla si cu modelele IA stocate si gesitonate de alti furnizori, cum ar fi Microsoft Azure (alta entitate juridica).

Concluzie

Imi este dificil sa cred ca intr-un domeniu atat de ermetic, intr-o tara atat de conservatoare se poate construi asa ceva, momentan.

Este probabil ca domeniul LawTech si LegalTech sa devina un domeniu stramtorat, din lipsa de bani si disponibilitate de incercare din partea profesionistilor.

Pe langa protestele unor profesionisti care boicoteaza ideologic tehnologia, avem lipsa de educatie si oameni care sa explice acest ecosistem - cu partile sale bune si rele - fata de profesionisti.

Avem si clasa de oameni care duc in extrema ideea ca AI face tot, facand pagube clientilor pe care ar trebui de fapt sa ii ajute.

Si o clasa foarte mare de oameni care vor astfel de solutii la pret de ChatGPT, fara sa stie ca OpenAI de fapt plateste mai multi bani decat castiga pe ChatGPT, si te folosesc pe post de sursa de antrenament, pe principiul ca vor scoate ulterior banii de pe tine, cumva.

Lasandu-mi perceptia frustrata la o parte, tehnologia este capabila, dar viabilitatea sa este limitata financiar si economic - pe plan obiectiv de lipsa fezabilitatii antrenarii de la 0 a unui model mare (fiind posibila doar finisarea, cu rezultate apropiate, dar nu absolute), si pe plan subiectiv de indisponibilitatea profesionistilor de a testa solutii precum Juridice.ai, dar si a celorlalte in piata.

Cateva opinii despre solutiile din piata

Juridice AI
Magie legala

Juridice AI este cea mai buna implementare de ChatBot juridic din Romania, folosind un set de modele publice. Anterior, acestia foloseau Claude.

Ei folosesc tehnica RAG, selectand actele normative relevante pe care AI-ul trebuie sa le foloseasca pentru a imputernici AI-ul in a intelege legislatia. Par a folosi o tehnica RAG prin cautare standard din surse web publice (site-uri, legislatie, etc)

ai-aflat.ro- Legea pe înțelesul tuturor
Asistent juridic în România, bazat pe AI. Primești răspunsuri clare și rapide din legile românești. Gratuit, online și mereu disponibil.

AI Aflat foloseste strict RAG pe legislatie, insa nu cunoastem informatii cu exceptia faptului ca par a folosi RAG semantic (prin utilizarea unei baze de date vector).


Data de contact

Pentru informatii si ajutor in implementarea IA la nivelul societatii dvs de avocatura sau notariat, va ajut pro-bono (in limitele timpului), sau contra cost (la proiectele mai consistente), pe email la [email protected]