Săriți la conținutul principal
Lentilă Legală

Analiza Big Data a Registrului Comerțului din România

Stefan-Lucian Deleanu

⚠️
Analizele prezentate nu au o precizie de 100%, deoarece informațiile originale, extrase din BERC (format PDF sau JSON), nu sunt într-o formă care să garanteze o astfel de precizie. Spre exemplu, natura variabilității formatelor din BERC face ca București sa fi fost prost scanat tocmai datorită formatului distinct al încheierii de înregistrare în această analiză

Invităm pe toți cei interesați să citească mențiunea de responsabilitate pentru detalii clare.

Oricine dorește o copie a rezultatelor statistice sau informații suplimentare, le poate solicita la: [email protected].

Introducere

Incorpo.ro este o companie LawTech dedicată automatizării și simplificării sarcinilor complexe din domeniul juridic. Misiunea noastră este de a elimina birocrația și de a accelera procesele consumatoare de timp, ajutând oamenii să economisească resurse prețioase.

În cadrul acestui obiectiv, ne-am propus să dezvoltăm un robot software care să poată corecta dosarele și să identifice erorile înainte ca acestea să fie trimise către Registrul Comerțului. Cu cât sunt mai puține erori, cu atât admiterea dosarelor este mai rapidă, ceea ce duce la clienți fericiți.

Pentru a antrena modelul să înțeleagă comportamentul registratorilor, precum și motivele legale și cutumiare de amânare, a fost necesară o analiză detaliată a datelor disponibile.

În acest articol, vom prezenta metodologia utilizată pentru analiza big data a activității Registrului Comerțului din România, rezultatele cheie obținute și implicațiile acestora pentru eficientizarea procesului de înregistrare a societăților comerciale.

Datele și procesul de colectare

Datele utilizate în această analiză provin din Buletinul Electronic al Registrului Comerțului, o sursă publică ce include informații de interes general despre societățile comerciale și înregistrările efectuate. Utilizarea acestor date în scopul declarat, de informare a publicului cu privire la funcționalitatea Registrului ca instituție de interes public, respectă prevederile legale și etice.

Procesul de colectare a datelor a implicat descărcarea buletinelor electronice pentru anul 2024 și extragerea informațiilor relevante folosind tehnici de web scraping și procesare a documentelor PDF.

Metodologia de analiză

Analiza datelor colectate a fost realizată folosind scripturi Python care au procesat informațiile extrase și au generat reprezentări grafice sugestive ale indicatorilor cheie de performanță. Printre aspectele investigate se numără:

  1. Viteza de procesare a dosarelor la nivel de județ
  2. Procentul de dosare admise, respinse și amânate pe fiecare județ
  3. Eficiența registratorilor individuali, măsurată prin numărul de înregistrări procesate, zilele lucrate și productivitatea medie zilnică/orară
  4. Frecvența tipurilor de rezoluții în funcție de ora pronunțării
  5. Cele mai frecvente motive de respingere a dosarelor, identificate prin tehnici de procesare a limbajului natural (NLP) și clustering

Prezentarea rezultatelor cheie

Viteza procesării cererilor

Un prim indicator al eficienței Registrului Comerțului este rapiditatea cu care sunt procesate cererile de înregistrare a societăților comerciale. Analiza noastră a evidențiat faptul că, în majoritatea județelor, cererile sunt soluționate în termen de 1-3 zile lucrătoare, un interval remarcabil comparativ cu alte instituții publice din România.

Graficul de mai sus ilustrează distribuția timpilor de procesare pentru județul București, evidențiind faptul că majoritatea deciziilor sunt luate în primele 5 zile de la depunerea cererii.

Procentul de dosare admise, respinse și amânate

Un alt aspect important este distribuția deciziilor luate de Registrul Comerțului în funcție de rezultatul final: admitere, respingere sau amânare. Analiza noastră a arătat că, în medie, peste 93% din cererile depuse sunt admise, direct sau după o amânare.

Graficul de mai sus prezintă situația dosarelor pentru toate județele, evidențiind ponderea ridicată a cererilor admise și procentele relativ mici de respingeri și amânări.

Eficiența registratorilor individuali

Analiza noastră a urmărit, de asemenea, performanța individuală a registratorilor, măsurată prin volumul de muncă și productivitatea medie. Rezultatele au arătat că, deși există diferențe între registratori, majoritatea procesează un număr semnificativ de cereri și mențin un ritm de lucru susținut.

Cei mai productivi registratori ai registrului comertului, perioada 01.01.2024-01.07.2024 (numar dosare solutionate in medie pe zi activa - cu o singura inregistrare)
Cei mai productivi înregistratori ai registrului comerțului, perioada 01.01.2024-01.07.2024 (număr de dosare soluționate în medie pe zi activă - cu o singură înregistrare - eșantionat)
Cei mai productivi registratori ai registrului comertului, perioada 01.01.2024-01.07.2024 (numar dosare solutionate in medie pe zi activa - cu o singura inregistrare)
Cei mai productivi înregistratori ai registrului comerțului, perioada 01.01.2024-01.07.2024 (număr de dosare soluționate în medie pe zi activă - cu o singură înregistrare - eșantionat)
📊
Cel mai eficient registrator identificat este Ovidiu Bugeag, care a procesat 4257 de intrări în 105 zile lucrătoare, cu o medie de 40,54 intrări pe zi și 5,07 intrări pe oră.

La polul opus se situează înregistrătorii precum: Maria-Cornelia Măglașu, care procesează doar 3,64 de dosare pe zi, adică 0,46 dosare pe oră lucrată.

Notă: Datele sunt de interes public, însă îi invităm pe registratori să ne contacteze dacă doresc să ofere o replică pentru a clarifica situația.

Aceste rezultate sugerează că, deși există loc de îmbunătățire, majoritatea registratorilor își îndeplinesc atribuțiile cu profesionalism și eficiență.

💡
Este demn de remarcat faptul că multi registratori au sub 30-60 de zile totale muncite, ceea ce înseamnă că ar putea fi la începutul carierei lor, în concediu de maternitate sau să aibă alte probleme care le-ar reduce productivitatea.

Noi am adaptat analiza pentru a calcula media pe baza numărului de zile lucrate, excluzând zilele în care nu au existat nicio soluție de la un registrator (de aceea există un minim de 1 dosar pe zi lucrată pentru fiecare registrator), însă această abordare ar putea exclude persoane care nu lucrează deloc.

Frecvența tipurilor de rezoluții pe ore

O analiză interesantă a examinat distribuția tipurilor de rezoluții (admitere, respingere, amânare) în funcție de ora pronunțării. Rezultatele au scos în evidență anumite modele, cum ar fi o frecvență mai mare a amânărilor în primele ore ale dimineții și o concentrare a admiterilor în intervalul orar 10:00-15:00.

Graficul de mai sus ilustrează aceste tendințe pentru municipiul București, sugerând posibile oportunități de optimizare a programului de lucru și de alocare a resurselor.

💡
De asemenea, este demn de laudă faptul că oamenii lucrează chiar și înainte de program, la ora 6, respectiv ora 7, o surpriză pozitivă care se manifestă în destul de multe județe.

Se vede clar că mulți stau peste program, iar rezultatele se văd în performanța peste medie ca instituție.

Motivele de respingere a cererilor

Prin utilizarea tehnicilor de NLP și a clusterelor, am analizat textele deciziilor de respingere pentru a identifica motivele cele mai frecvente invocate de registratori. Rezultatele au scos în evidență probleme precum lipsa documentației de sprijin, nerespectarea cerințelor legale privind obiectul de activitate sau denumirea companiei, precum și erori de formă în redactarea cererilor.

T-SNE (Clusterizare pe optim sillhouette plus cot - 87 clustere) - decizii de amânare registratori ORC

Vizualizarea t-SNE are rolul de a afișa cât de bine se diferențiază diverse categorii de amânare și cât de eficient a fost modelul în a le categoriza.

Din imagine, se poate interpreta că se formează niște clustere foarte evidente, un semn bun. Mai jos, sunt motivele agregate, iar clusterele sunt interpretate cu modele AI care procesează motivele comune ale tuturor membrilor clusterelor.

Analiza celor mai frecvente motive de amânare (Rezumat)
Analiza celor mai frecvente motive de amânare (Rezumat)

Interpretare și implicații

Analiza noastră arată că, în general, Registrul Comerțului are un nivel ridicat de eficiență și profesionalism în comparație cu alte instituții publice din România.

Timpii de procesare a cererilor sunt rezonabili, iar ponderea ridicată a deciziilor de admitere indică corectitudinea și conformitatea procesului de înregistrare.

Cu toate acestea, analiza a identificat și unele oportunități de îmbunătățire, cum ar fi:

  1. Optimizarea alocării resurselor și a programului de lucru în funcție de tiparul observat al rezoluțiilor pe intervale orare
  2. Oferirea de îndrumare și asistență suplimentară solicitanților pentru a reduce erorile frecvente în redactarea cererilor
  3. Clarificarea unor zone care în prezent sunt interpretate în mod convențional, fără a se baza pe norme clare:
    1. Respingeri pe motiv că durata mandatului administratorului este nelimitată (ar trebui înlocuită cu o perioadă supletivă de 3 ani, conform Codului Civil)
    2. Fără o motivație clară în anumite situații pentru respingeri, acestea fiind lipsite de temeiuri legale.
    3. Dilema CAEN (Antreprenorii sunt obligați să declare că nu vând arme sau muniții și că nu intenționează să desfășoare activități pentru care nu au autorizații.)

      Declarațiile sunt echivalente cu o declarație "nu intenționez să comit infracțiuni" și sunt, în mare parte, lipsite de efect juridic în fapt.

Concluzii

Analiza big data a activității Oficiului Național al Registrului Comerțului din România, realizată de echipa Incorpo.ro, a oferit o perspectivă valoroasă asupra eficienței și provocărilor acestei instituții cheie în ecosistemul de afaceri românesc. Prin utilizarea tehnicilor avansate de procesare a datelor și a metodelor de vizualizare, am reușit să identificăm atât punctele forte, cât și oportunitățile de îmbunătățire.

Rezultatele noastre subliniază importanța investiției continue în soluții tehnologice inovatoare, cum ar fi automatizarea proceselor și implementarea inteligenței artificiale, pentru a îmbunătăți și mai mult eficiența și calitatea serviciilor oferite de Registrul Comerțului.

Pe de altă parte, considerăm că efortul solid al registratorilor merită răsplătit, fiind irațională din punct de vedere economic plata standardizată în cazul celor care depășesc așteptările.

Fără a analiza matematic datele, din grafice reiese evident că munca în afara programului este o obișnuință a registratorilor din majoritatea județelor, în Botoșani registratorii rezolvând chiar și la ora 22-23, cu un grad de frecvență comparativ ridicat.

Credem că Registrul Comerțului este un studiu de caz relevant pentru deficiențele sistemului de remunerare din sectorul public, unde performanța nu este încurajată. Vom prezenta o analiză detaliată care va evidenția nivelul de remunerare pe oră, proporțional cu numărul de dosare finalizate, pentru a scoate în evidență problemele sistemului actual și potențialul unei modificări legislative care să promoveze eforturile susținute ale majorității registratorilor.

Peste 60% dintre înregistratori rezolvă mai mult de 25 de dosare pe zi, ceea ce înseamnă că rezolvă dosarele, în medie, mai repede de unul la 19 minute, o cifră bună.

Pe de altă parte, trebuie să fim atenți ca efortul să nu devină exorbitant, iar viteza necesară pentru a respecta standardele de analiză să nu reducă eficiența diligentelor registratorilor.

Sperăm ca această analiză să ofere o bază solidă pentru discuții constructive și acțiuni concrete în direcția optimizării activității Registrului Comerțului, în beneficiul mediului de afaceri românesc și al economiei în ansamblu.

Invităm persoanele să analizeze și informațiile extinse, oferite în depozitul GitHub, unde apar mai multe grafice, pe fiecare județ, cu privire la rata de admisibilitate, program de lucru, etc.

Pentru orice drepturi de replică (dacă este cazul), solicitări privind setul de date sau alte întrebări, rămânem disponibili la:

[email protected]
+40786833325

Avertisment, Informații privind posibile erori, etc.

La solicitarea indirectă a unei persoane care a venit cu o replică la postare, am decis să ofer un exemplu mai clar despre cum a fost realizată analiza, de unde provin datele și ce concluzii putem trage de fapt:

  1. Am luat informațiile din buletinul electronic al registrului comerțului, pe care l-am folosit pentru analizele noastre. Am luat tot din anul 2024, din toate județele țării, până la 01.07.2024.
  2. Am extras textul din fiecare document folosind expresii regulate (REGEX). care s-a dovedit a fi eficient în extragerea informațiilor din majoritatea documentelor gestionate de registrul comerțului, aproximativ 90%. Expresiile regulate sunt un mod de a căuta "reguli" în text, de exemplu, prin instruirea programului să citească tot ce urmează după "Registrator de la registrul comerțului, [AICI ESTE NUMELE]".
  3. Am calculat în câte soluții de respingere sau admitere au apărut numele registratorilor, și am agregat informațiile. Deoarece unele au fost create cu OCR și și-au pierdut semantica, am post-filtrat informațiile afișate.
    Filtre avansate:
    1. Minim 30 de zile diferite în care au fost identificați, deci dacă există anomalii, acestea ar trebui să persiste în 30 de zile calendaristice distincte. Astfel, eliminăm atât noii angajați, cât și orice altă persoană care, din alte motive, nu are același randament. Nu poți condamna un începător pentru că muncește mai lent.
    2. Am încercat, pe cât posibil, să combinăm numele comune, atunci când le-am găsit. Ulterior, după o critică rezonabilă din partea domnului Alex Marin, am agregat și pe baza similarității numelor, pentru a elimina situațiile în care același nume apare în forme diferite în mai multe locuri. De exemplu: o literă greșită, lipsa diacritice, lipsa "-" în nume.

Riscuri legitime: Regex matching-ul pe text vine cu gradul ei de inacuratete in contextul in care regulile care stau la baza identificarii solutilor nu sunt suficiente pentru a capta toate informatiile. Spre exemplu, chiar si acum, sunt diferente majore in ce releva datasetul din Bucuresti, datorita neutilizarii sablonului standard de catre registratorii din Bucuresti.

Acuze de rea-credință, plată de "polite", răzbunare, etc.Analiza a fost efectuată intern pentru a identifica cele mai frecvente motive de amânare, iar din punctul meu de vedere personal, acestea sunt de bună credință și nu văd nicio critică viabilă la adresa lor.

Din mulţimea de registratori, analiza identificându-i pe toţi din România, nu îi cunosc pe majoritatea, nu am nimic cu absolut nici unul, şi în final, scorurile, chiar dacă au o eroare de +-10%, sunt bune, per total. Arată o eficienţă ridicată, pe care, de altfel, am subliniat-o foarte bine în articol.

În cele din urmă, dacă am fi fost de rea-credință, nu am fi publicat exemple pozitive și cu siguranță nu am fi construit brandul pe care dorim să îl promovăm ca fiind bazat pe bună-credință, încredere și competență.


Solicitare Reanalizare + Rezultat

Pentru că s-a solicitat o reverificare a analizei datelor, în special în legătură cu registratorii de la Registrul Comerțului, am efectuat această verificare pentru a identifica orice discrepanțe majore în rezultate.

Optimizări la robustețea procesului de analiză:

Am adus o serie de îmbunătățiri procesului de colectare și procesare a datelor:

  1. Optimizarea procesului de salvare a datelor prin implementarea unui sistem de semafoare (mutex lock), pentru a preveni condițiile de cursă și inconsistențele cauzate de accesul concurent la fișiere.
  2. Extinderea perioadei de analiză până la data de 04.07.2024, prin crawl-uirea tuturor buletinelor publicate, inclusiv a celor care nu fuseseră disponibile anterior, asigurând astfel o acoperire completă a datelor.
  3. Includerea în corpus a datelor aferente municipiului București, prin modificarea expresiilor regulate (regex) utilizate pentru extragerea informațiilor, eliminând astfel omisiunea inițială a acestei entități administrative tratate distinct față de județe. Presupunem că majoritatea modificărilor din rezultatele analizei provin de aici - analiza anterioară neincluzând Municipiul București.
  4. Îmbunătățirea procesului de identificare a numelor de județe prin utilizarea unui algoritm de căutare fuzzy (fuzzy string matching), pentru a permite o potrivire mai flexibilă și a gestiona variațiile cauzate de procesarea OCR sau de abaterile de la standardele de redactare.
  5. Implementarea gestionării permutărilor numelui registratorilor (de exemplu, "John Doe" și "Doe John" sunt tratați ca aceeași persoană) prin aplicarea unui algoritm de căutare sortată pe nume, împreună cu căutarea fuzzy menționată anterior.

Analiza secundară diferită:

La finalul analizei, după implementarea acestor îmbunătățiri, am efectuat o analiză comparativă a rezultatelor pentru a identifica potențiale erori din prima analiză. Astfel:

  • În ceea ce privește zilele lucrate, diferența medie a fost de -2,0 zile, iar cea mediană de 7,0 zile, cu o variație între -91 și 13 zile. Această variație indică faptul că, deși pentru unii registratori au existat modificări semnificative (de exemplu, Georgeta Pacuraru cu o scădere de 91 de zile), în ansamblu impactul a fost moderat.
  • În ceea ce privește numărul de dosare procesate, modificarea medie a fost de 292,43 de dosare, iar cea mediană de 348,5 de dosare, cu o variație între -678 și 863 de dosare. Aceste valori indică ajustări incrementale pentru majoritatea registratorilor, cu excepția unor cazuri precum Daniela Oprișan, care a înregistrat o creștere semnificativă de 863 de dosare procesate.
  • Productivitatea zilnică a înregistrat o modificare medie de 2,61 de dosare pe zi și o modificare mediană de 2,35 de dosare pe zi, variind între -7,11 și 14,94 de dosare pe zi. Aceste cifre sugerează că, deși pentru unii registratori au existat îmbunătățiri semnificative (de exemplu, Ioana Cătălina Florea cu o creștere de 14,94 de dosare pe zi), pentru alții modificările au fost negative (de exemplu, Mihaela Vicol cu o scădere de 7,11 de dosare pe zi).
  • Productivitatea orară a înregistrat o modificare medie de 0,33 de dosare pe oră și o modificare mediană de 0,29 de dosare pe oră, cu variații între -0,89 și 1,87 de dosare pe oră. Aceste valori indică ajustări relativ minore pentru majoritatea registratorilor.
  • În ceea ce privește modificările în clasament, s-a înregistrat o îmbunătățire mediană de 3,0 poziții și o îmbunătățire medie de aproximativ 1 poziție (-1,07). Deși au existat unele reordonări, acestea nu au fost semnificative în ansamblu, iar majoritatea registratorilor și-au menținut pozițiile relative.

În concluzie, reanaliza a demonstrat că, deși îmbunătățirile au rafinat rezultatele și au crescut acuratețea, acestea nu au dus la modificări esențiale față de concluziile inițiale. Analiza inițială pare solidă și corectă în general, iar ajustările au consolidat constatările fără a le denatura semnificativ.

Credem că acest efort de a revizui și îmbunătăți analiza noastră demonstrează angajamentul nostru față de precizie, transparență și receptivitate la feedback-ul primit.

Rezultatele acestui studiu, astfel revizuit, oferă o imagine și mai detaliată și argumentată a activității registratorilor de la Registrul Comerțului.

Clasamente actualizate (pe oră):

Revizuire - Top 10 - 01.01.2024-03.07.2024 (inclusiv Municipiul București) - Dosare pe oră
Revizuire - Top 10 - 01.01.2024-03.07.2024 (inclusiv Municipiul București) - Dosare pe oră

Angajament de transparență

Dat fiind că au apărut mai multe critici cu privire la procedura aparent opacă a analizei, am procedat la publicarea codului utilizat în analiză, mai jos. Pentru a crește transparența în proces, am atașat fișierele utilizate în analiză, precum și informațiile preliminare din noua analiză.

GitHub - Incorporor/analiza-big-data-onrc
Contribuie la dezvoltarea platformei Incorporo/analiza-big-data-onrc creând un cont pe GitHub.