Перейти к основному контенту
Правовой фокус

Анализ больших данных в Торговом реестре Румынии

Стефан-Лучиано Делеану

⚠️
Представленные анализы не имеют 100% точности, поскольку оригинальная информация, извлеченная из BERC (в формате PDF или JSON), не находится в форме, которая гарантировала бы такую точность. Например, природа изменчивости форматов в BERC приводит к тому, что Бухарест был плохо отсканирован именно из-за уникального формата заключения регистрации в этом анализе.

Мы приглашаем всех заинтересованных ознакомиться с нашим免责声明для получения подробной информации.

Кроме того, любой желающий получить копию статистических результатов или дополнительную информацию может запросить их по адресу: [email protected].

Введение

Incorpo.ro — это компания LawTech, специализирующаяся на автоматизации и упрощении сложных юридических задач. Наша цель — избавить людей от бюрократии и упростить трудоемкие процессы, тем самым помогая экономить ценное время и ресурсы.

В рамках этой цели мы поставили задачу разработать программного робота, способного исправлять ошибки в документах и выявлять их до отправки в Регистр торговли. Меньше ошибок означает более быструю приемку документов, а следовательно, и довольных клиентов.

Для обучения модели пониманию поведения регистраторов, а также юридических и внюридических (обычных) причин задержки, потребовался глубокий анализ имеющихся данных.

В этой статье мы представим методологию, использованную для анализа больших данных деятельности Регистра торговли Румынии, ключевые полученные результаты и их последствия для повышения эффективности процесса регистрации коммерческих обществ.

Дата и процесс сбора

Данные, используемые в этом анализе, взяты из Электронного бюллетеня Торгового реестра, общественного источника, содержащего информацию общего интереса о коммерческих компаниях и зарегистрированных записях. Использование этих данных для заявленной цели информирования общественности о функционировании Реестра как учреждения, представляющего общественный интерес, соответствует правовым и этическим нормам.

Процесс сбора данных включал в себя скачивание электронных бюллетеней за 2024 год и извлечение соответствующей информации с помощью методов веб-скрейпинга и обработки PDF-документов.

Методология анализа

Анализ собранных данных был проведен с помощью скриптов Python, которые обработали извлеченную информацию и сгенерировали наглядные визуализации ключевых показателей эффективности. В рамках исследования были рассмотрены следующие аспекты:

  1. Скорость обработки дел на уровне уезда
  2. Процент принятых, отклоненных и отложенных дел по каждой области
  3. Эффективность индивидуальных регистраторов, измеряемая количеством обработанных записей, рабочими днями и средней ежедневной/почасовой производительностью
  4. Частота типов разрешений в зависимости от времени произнесения
  5. Наиболее частые причины отказа в регистрации, выявленные с помощью методов обработки естественного языка (NLP) и кластеризации

Представление ключевых результатов

Быстрота обработки заявок

Один из первых показателей эффективности Регистра торгового регистра - это скорость обработки заявок на регистрацию коммерческих предприятий. Наш анализ показал, что в большинстве округов заявки обрабатываются в течение 1-3 рабочих дней, что является впечатляющим показателем по сравнению с другими государственными учреждениями в Румынии.

На графике выше показана распределение сроков обработки для жудеца Бухарест, что подчеркивает тот факт, что большинство решений принимаются в первые 5 дней после подачи заявки.

Процент принятых, отклоненных и отложенных дел

Другой важный аспект — это распределение решений, принятых Регистром торговли, в зависимости от конечного результата: принятие, отклонение или отсрочка. Наш анализ показал, что в среднем более 93% представленных заявлений принимаются, либо сразу, либо после отсрочки.

График выше показывает ситуацию с заявками во всех регионах, выделяя высокий процент одобренных заявок и относительно низкий процент отклоненных и отложенных заявок.

Эффективность индивидуальных регистраторов

Наш анализ также отслеживал индивидуальную эффективность регистраторов, измеряемую объемом работы и средней производительностью. Результаты показали, что, хотя между регистраторами и существуют различия, большинство из них обрабатывают значительное количество запросов и поддерживают устойчивый рабочий ритм.

Cei mai productivi registratori ai registrului comertului, perioada 01.01.2024-01.07.2024 (numar dosare solutionate in medie pe zi activa - cu o singura inregistrare)
Самые продуктивные регистраторы торгового реестра, период с 01.01.2024 по 01.07.2024 (среднее количество решенных дел в день, активные - с одной записью - выборка)
Cei mai productivi registratori ai registrului comertului, perioada 01.01.2024-01.07.2024 (numar dosare solutionate in medie pe zi activa - cu o singura inregistrare)
Самые продуктивные регистраторы торгового реестра, период с 01.01.2024 по 01.07.2024 (среднее количество решенных дел в день, активные - с одной записью - выборка)
📊
Самый эффективный идентифицированный регистратор Овидиу Бужаг, обработала 4257 записей за 105 рабочих дней, в среднем 40,54 записи в день и 5,07 записей в час.

На другом конце спектра находятся такие регистраторы, как: Мария-Корнелия Маглашу, который обрабатывает только 3,64 дела в день, то есть 0,46 дела в час работы.

Примечание: Данные являются общедоступными, однако мы приглашаем регистраторов предоставить право на ответ, если они хотят прояснить ситуацию.

Эти результаты показывают, что, хотя есть место для улучшения, большинство регистраторов выполняют свои обязанности профессионально и эффективно.

💡
Это примечательно, однако, что Много регистраторов имеют в общей сложности от 30 до 60 рабочих дней., что может означать, что они находятся в начале своей карьеры, в декретном отпуске или имеют другие проблемы, влияющие на их производительность.

Мы адаптировали анализ, чтобы рассчитать среднее значение на основе количества отработанных дней, не учитывая дни, в которые от регистратора не было получено никаких решений (поэтому минимальное количество обработанных дел на день регистратора равно 1), что, однако, может привести к потере данных по лицам, которые действительно не работают.

Частота типов разрешений по часам

Интересный анализ распределения типов решений (принятие, отклонение, отсрочка) в зависимости от времени вынесения решения выявил некоторые закономерности. Например, было обнаружено, что отсрочки чаще случаются в первые часы утра, в то время как принятие решений чаще всего происходит в период с 10:00 до 15:00.

График выше иллюстрирует эти тенденции для муниципалитета Бухареста, предлагая возможные возможности для оптимизации рабочего графика и распределения ресурсов.

💡
Кроме того, похвально, что люди работают даже до начала рабочего дня, в 6 или 7 часов утра, что является положительной неожиданностью, наблюдаемой во многих регионах.

Строка в исходном языке: "Ясно, что многие сидят на программе, а результаты видны в выше среднего исполнении как учреждения."

Причины отказа в заявках

Используя методы обработки естественного языка и кластеризации, мы проанализировали тексты решений об отказе, чтобы выявить наиболее частые причины, ссылающиеся на регистраторов. Результаты показали такие проблемы, как отсутствие подтверждающих документов, несоблюдение юридических требований к деятельности или названию компании, а также формальные ошибки при подаче заявлений.

Т-SNE (Кластеризация с оптимизацией силуэтов плюс локоть - 87 кластеров) - решения о переносе регистраторов ORC

Визуализация t-SNE показывает, насколько хорошо различные категории отсрочки отличаются друг от друга и насколько эффективно модель классифицирует их.

Из изображения можно сделать вывод, что образуются очень явные кластеры, что является хорошим знаком. Ниже представлены агрегированные мотивы и кластеры, анализируемые с помощью моделей ИИ для обработки общих мотивов всех членов кластеров.

Анализ наиболее частых причин откладывания (Резюме)
Анализ наиболее частых причин откладывания (Резюме)

Интерпретация и последствия

Результаты нашего анализа показывают, что, в целом, Регистр торговли демонстрирует хороший уровень эффективности и профессионализма по сравнению с другими государственными учреждениями в Румынии.

Время обработки заявок является разумным, а высокий процент положительных решений свидетельствует о правильности и соответствии процесса регистрации.

Однако анализ выявил некоторые возможности для улучшения, такие как:

  1. Оптимизация распределения ресурсов и рабочего графика в соответствии с наблюдаемым шаблоном разрешений по временным интервалам
  2. Предоставление дополнительных рекомендаций и поддержки заявителям для сокращения частоты ошибок при подаче заявок
  3. Ясность в областях, которые в настоящее время интерпретируются на основе обычаев, а не четких правил:
    1. Отклонения из-за того, что срок полномочий администратора является неопределенным (должен быть заменен на дополнительный период в 3 года в соответствии с Гражданским кодексом)
    2. Отсутствие ясной мотивации в некоторых ситуациях для отклонений, которые не имеют законных оснований.
    3. Строка в исходном языке: Дилемма CAEN (предприниматели обязаны заявить, что они не продают оружие или боеприпасы и не планируют заниматься деятельностью, для которой у них нет разрешений).

      Заявления эквивалентны заявлению "не совершать преступлений" и в основном не имеют фактического юридического эффекта.

Заключения

Анализ больших данных о деятельности Регистра торговой деятельности Румынии, проведенный командой Incorpo.ro, предоставил ценную информацию об эффективности и проблемах этого ключевого учреждения в румынском бизнес-экосистеме. Используя передовые методы обработки данных и визуализации, мы смогли выявить как сильные стороны, так и возможности для улучшения.

Наши результаты подчеркивают важность постоянных инвестиций в инновационные технологические решения, такие как автоматизация процессов и применение искусственного интеллекта, для дальнейшего повышения эффективности и качества услуг, предоставляемых Регистром торговли.

С другой стороны, мы считаем, что солидные усилия регистраторов должны быть вознаграждены, и было бы экономически нерационально платить стандартную плату в случае сверхуспешной работы.

Без математического анализа данных графики ясно показывают, что работа вне рабочего времени является привычкой регистраторов в большинстве округов, а в Ботошани регистраторы работают даже до 22-23 часов с относительно высокой частотой.

Мы считаем, что Торговый реестр является хорошим примером недостатков системы оплаты в государственном секторе, где эффективность работы не поощряется. Мы вернемся к более подробному анализу, в котором мы подробно опишем степень почасовой оплаты, пропорциональной количеству обработанных дел, чтобы выявить недостатки текущей системы и потенциал законодательных изменений, которые позволят поощрять постоянные усилия большинства регистраторов.

Более 60% регистраторов обрабатывают более 25 дел в день, что означает, что они обрабатывают дела в среднем быстрее, чем через 19 минут, что является хорошим показателем.

С другой стороны, мы должны быть внимательны к тому, чтобы усилия не стали чрезмерными, и скорость, необходимая для соблюдения стандартов анализа, не снизила эффективность должной осмотрительности регистраторов.

Мы надеемся, что этот анализ заложит прочную основу для конструктивных дискуссий и конкретных действий по оптимизации деятельности Торгового реестра в интересах румынского бизнеса и экономики в целом.

Приглашаем вас изучить расширенную информацию, представленную в репозитории GitHub, где вы найдете графики для каждой области, показывающие такие показатели, как процент приемлемых заявок, график работы и т. д.

Для прав на ответ (если применимо), запросов на набор данных и других вопросов мы остаемся доступными по следующему адресу:

[email protected]
+40786833325

Оговорка, Информация о потенциальных ошибках и т.д.

По просьбе человека, который ответил на пост, я решил привести более конкретный пример того, как был проведен анализ, откуда были взяты данные и что они на самом деле показывают:

  1. Мы взяли информацию из электронного бюллетеня регистра торгового регистра, который мы использовали для наших анализов. Мы взяли данные за весь 2024 год, из всех округов страны, до 01.07.2024.
  2. Я извлек текст из каждого документа и использовал регулярные выражения. оказалось, что он эффективно извлекает информацию из большинства документов, управляемых торговым реестром, примерно 90%. REGEX представляет собой способ поиска "правил" в тексте, например, указав программе читать все, что идет после "Регистратор торгового реестра, [ЗДЕСЬ ИМЯ]".
  3. Я подсчитал, сколько раз имена регистраторов появлялись в решениях об отклонении или принятии, и агрегировал информацию.Строка в исходном языке: . Поскольку некоторые были созданы с использованием OCR и потеряли свою семантику, мы постфильтровали отображаемую информацию.
    Постфильтры:
    1. Минимум 30 разных дней, в которые они были выявлены, так что если есть аномалии, они должны сохраняться в течение 30 разных календарных дней. Таким образом, мы исключаем новых сотрудников и любых других людей, которые по другим причинам могут работать не так эффективно. Вы не можете осуждать новичка за то, что он работает медленнее.
    2. Мы в значительной степени пытались объединить общие имена, когда находили их. Впоследствии, после разумной критики г-на Алекса Марина, мы также объединили имена на основе их сходства, чтобы избежать ситуаций, когда одно и то же имя присутствует в разных формах в разных местах. Например: ошибочная буква, отсутствие диакритических знаков или дефиса в имени.

Легитимные риски: Регулярные выражения имеют свою долю неточностей при поиске текста, поскольку правила, лежащие в основе идентификации решений, могут быть недостаточными для улавливания всей информации. Например, даже сейчас существуют значительные различия в данных, относящихся к Бухаресту, из-за того, что регистрационные службы Бухареста не используют стандартный шаблон.

Строки в исходном языке:Анализ был проведен внутри компании, чтобы выявить самые частые причины отсрочки, и, по моему личному мнению, эти причины являются добросовестными, и я не вижу никаких обоснованных критических замечаний в их адрес.

Из множества регистраторов, анализируя их всех в Румынии, я не знаю большинства из них, у меня нет ничего против любого из них, и, наконец, оценки, даже если они имеют ошибку +-10%, все же хороши в целом. Они показывают высокую эффективность, что, кстати, я очень хорошо подчеркнул в статье.

Наконец, если бы мы были недобросовестны, мы бы не опубликовали эти положительные примеры, и, тем более, не опубликовали бы бренд, который мы хотим построить, как основанный на добросовестности, доверии и компетентности.


Запрос на пересмотр + результат

Поскольку была запрошена повторная проверка анализа данных, особенно в отношении регистраторов из Торгового реестра, мы провели эту проверку, чтобы выявить любые значительные несоответствия в результатах.

Оптимизация устойчивости процесса анализа:

Мы внесли ряд улучшений в процесс сбора и обработки данных:

  1. Оптимизация процесса сохранения данных путем внедрения системы семафоров (mutex lock) для предотвращения условий гонки и несогласованности, вызванных одновременным доступом к файлам.
  2. Расширение периода анализа до 04.07.2024 года путем сканирования всех опубликованных бюллетеней, включая те, которые ранее были недоступны, обеспечивая тем самым исчерпывающее покрытие данных.
  3. Включение данных города Бухареста в корпус путем изменения регулярных выражений (regex), используемых для извлечения информации, тем самым устраняя первоначальное упущение этого административного образования, которое рассматривалось отдельно от округов. Мы предполагаем, что большинство изменений в результатах анализа связаны с тем, что предыдущий анализ не включал Бухарест.
  4. Улучшение процесса распознавания названий районов с использованием алгоритма размытого поиска (fuzzy string matching), чтобы обеспечить более гибкое соответствие и учесть вариации, вызванные обработкой OCR или отклонениями от стандартного формата написания.
  5. Реализация управления вариациями имен регистраторов (например, "John Doe" и "Doe John" рассматриваются как один и тот же человек), путем применения алгоритма поиска отсортированного по имени, в сочетании с вышеупомянутым размытым поиском.

Дополнительный анализ:

В конце анализа, после внесения этих улучшений, мы провели сравнительный анализ результатов, чтобы выявить потенциальные ошибки в первом анализе. Таким образом:

  • Что касается рабочих дней, среднее отклонение составило -2,0 дня, а медианное отклонение - 7,0 дней, при варьировании от -91 до 13 дней. Это варьирование указывает на то, что, хотя для некоторых регистраторов были зафиксированы значительные изменения (например, у Georgeta Pacuraru снижение на 91 день), в целом влияние было умеренным.
  • Что касается количества обработанных дел, то среднее изменение составило 292,43 дела, а медианное — 348,5 дела, при этом колебания варьировались от -678 до 863 дел. Эти значения указывают на инкрементные корректировки для большинства регистраторов, за исключением таких случаев, как Даниэла Опришан, которая зарегистрировала увеличение на 863 обработанных дела.
  • Продуктивность в день изменилась в среднем на 2,61 дела в день и в среднем на 2,35 дела в день, варьируясь от -7,11 до 14,94 дел в день. Эти цифры показывают, что, хотя у некоторых регистраторов были значительные улучшения (например, Ioana Cătălina Florea с увеличением на 14,94 дела в день), у других изменения были отрицательными (например, Mihaela Vicol с уменьшением на 7,11 дела в день).
  • Продуктивность в часах изменилась в среднем на 0,33 дела в час, а медианная продуктивность изменилась на 0,29 дела в час, при этом диапазон колебаний составлял от -0,89 до 1,87 дела в час. Эти значения указывают на относительно небольшие корректировки для большинства регистраторов.
  • Что касается изменений в рейтинге, было зафиксировано медианное улучшение на 3,0 позиции и среднее улучшение примерно на 1 позицию (-1,07). Несмотря на некоторые перестановки, они в целом не были существенными, и большинство регистраторов сохранили примерно те же относительные позиции.

В заключение можно сказать, что повторный анализ показал, что, хотя внесенные улучшения и уточнили результаты, повысив точность исследования, они не привели к фундаментальным изменениям первоначальных выводов. Первоначальный анализ, похоже, был в целом надежным и беспристрастным, а внесенные коррективы укрепили выводы, не изменив их существенно.

Мы считаем, что этот процесс повторной проверки и улучшения анализа демонстрирует нашу приверженность точности, прозрачности и отзывчивости к полученным комментариям.

Результаты этого исследования, таким образом пересмотренные, дают еще более подробную и обоснованную картину деятельности регистраторов в Торговом реестре.

Обновленные рейтинги (по состоянию на час):

Пересмотр - Топ 10 - 01.01.2024-03.07.2024 (включая Бухарест) - Файлы в час
Проверка - Bottom 10 - 01.01.2024-03.07.2024 (включая Бухарест) - Файлы в час

Приверженность прозрачности

Поскольку появились некоторые критические замечания по поводу, как представляется, непрозрачной процедуры анализа, мы опубликовали ниже используемый в анализе код, чтобы повысить прозрачность процесса. Мы также прилагаем файлы, используемые в анализе, а также предварительную информацию из нового анализа.

GitHub - Incorpo/analizа-bolshikh-dannykh-onrc
Внесите свой вклад в развитие проекта Incorporo/analiza-big-data-onrc, создав аккаунт на GitHub.