Главная Блог Аналитические статьи Legal Tech Как создали робосудью и почему не стоит ждать скорых революций?

Как создали робосудью и почему не стоит ждать скорых революций?

05.11.2018
Автор:
Просмотров : 1523

В настоящее время тема использования машинного обучения (ML) и искусственного интеллекта (AI) в юридической сфере излишне популярна. Хотя реальных решений, позволяющих вкусить все прелести ML и AI, единицы.

ПРОТЕСТИРУЙТЕ СТАРТАП: AITA Я могу оценить вероятность выигрыша по определенному виду налоговых споров.

Как мы создали робосудью

Даже мы поддались искушению и решили попробовать свои силы. Важно понимать, что мы - классические юристы, а никакие не модные датасатанисты (зачеркнуто) датасайентисты, которые немножко научились "кодить". Это важно понимать, чтобы осознать порог входа (недели интенсива вам хватит, чтобы начать). Однако не обойтись без понимания, как работают статистические модели, методы валидации и пр. Работали мы на языке Python, который по праву можно назвать лучшим инструментом для таких задач. Плюс, он комфортен для новичков: огромное коммьюнити, открытый код с множеством библиотек и миллион обучающих курсов и статей. Например, мы активно использовали библиотеку "scikit-learn".

Как результат, у нас появилась робосудья. Наша робосудья (обученная модель) может предсказать результат рассмотрения специфического налогового спора. Точность прогноза составляет 93% (или как говорят датасайентисты: "precision очень хороший!"). Как мы добились такого результата?

Прежде всего, мы решили построить модель на определенном типе споров. Так называемые "споры о проблемных банках". Это споры, когда налоговый орган не признает, что компания уплатила налог, поскольку деньги до бюджета не дошли в силу проблем у банка (отозвана лицензия, нет денег на коррсчете и пр.). Причина в том, что по Налоговому кодексу налог считается уплаченным с момента предъявления платежки в банк при достаточном остатке на счете. Дальнейшая судьба денег зависит от Банка, при прочих равных. Предметом доказывания по таком спору является установление факта того, знала ли компания о проблемах банка и умышленно использовала его для платежа. Если суд не установит таких фактов, то Компания права, иначе правы налоговики.

Именно потому, что такая категория споров относится к спорам о фактах (нужно установить был/не был определенный факт), мы и выбрали ее. Споры о праве, т.е. о том, как правильно толковать закон, гораздо труднее формализовать.

В итоге, задача была сформулирована следующим образом: при наличии каких фактов решение будет принято в пользу Компании и с какой вероятностью. Это задача классификации по двум классам, т.е. построенная модель должна уметь отличать положительные кейсы от отрицательных (бинарная классификация). На первом этапе нужно было понять, какие факты говорят в пользу компании, а какие - в пользу налоговиков. И это - самый сложный этап.

Legal Tech: «AI» - искуственный юридический интелект которого не нужно бояться

Правда такова, что 90% затрат и времени уходит на формирование данных, их очистку и подготовку для модели. Дело в том, что при кажущейся развитости технологий, машина не дошла до понимания смысла естественного языка. Т.е. мы еще далеки от того, чтобы "скормить" машине текст судебного акта и на выходе получить развернутый анализ кейса с выявлением важных фактов. Соответственно, нужно оцифровать данные, чтобы машина их могла обработать. Оцифровка в нашем случае была проста по методологии, но трудоемка по объему. Мы маркировали в каждом судебном решении наличие (1) или отсутствие (0) соответствующего признака (факта). Получилась таблица с нулями и единицами. Безусловно, часть работы можно уже сейчас автоматизировать и пытаться отдельные признаки извлекать автоматизировано, анализируя текст. Кстати, обработкой естественного языка машиной занимается отдельная подотрасль natural language processing (nlp).

Итак, у нас получилось 20 потенциальных признаков (feature), которые мы выделили из сотни решений и которые, по нашей экспертной оценке, могли повлиять на исход дела. Дальше стоял выбор статистической модели, в которую будут загружены данные. Мы остановились на модели логистической регрессии, которая часто используется для решения задач классификации. Проще говоря, модель учится делить судебные дела на две части (положительные или отрицательные - 2 класса).

Юридические оговорки

Protocol.ua обладает авторскими правами на информацию, размещенную на веб - страницах данного ресурса, если не указано иное. Под информацией понимаются тексты, комментарии, статьи, фотоизображения, рисунки, ящик-шота, сканы, видео, аудио, другие материалы. При использовании материалов, размещенных на веб - страницах «Протокол» наличие гиперссылки открытого для индексации поисковыми системами на protocol.ua обязательна. Под использованием понимается копирования, адаптация, рерайтинг, модификация и тому подобное.

Полный текст