Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015

3,323 views

Published on

Выступление Александра Мигаловского (ГНИВЦ ФНС России) на International Conference on Big Data and its Applications (ICBDA).

ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.

http://icbda2015.org/

Published in: Government & Nonprofit
  • Be the first to comment

Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015

  1. 1. Применение технологии “Больших данных” в ФНС России (АСК НДС-2) Москва 2015
  2. 2. Причины и основания для создания АСК НДС-2 О налоге на добавленную стоимость Налог на добавленную стоимость являются одним из важнейших источников формирования доходной части бюджета РФ. На НДС приходится около 40% поступлений в Федеральный бюджет. С точки зрения механизма исчисления, НДС достаточно простой налог, но достаточно уязвимый с точки зрения создания схем уклонения от его уплаты. Основания для создания автоматизации контроля за уплатой НДС Основой для создания средств автоматизированного контроля за уплатой НДС является Федеральный закон от 28.06.2013 № 134-ФЗ «О внесении изменений в отдельные законодательные акты Российской Федерации в части противодействия незаконным финансовым операциям». В соответствии с требованиями 134 –ФЗ плательщик НДС обязан с 1-го квартала 2015 года подавать декларацию по НДС, которая будет включать сведения из книг продаж и покупок, журналов учета выставленных и полученных счетов-фактур. Реализация требований 134 –ФЗ дала возможность осуществлять автоматизированную проверку обоснованности вычета НДС, путем осуществления сопоставление сведений, представленных контрагентами. Автоматизированная проверка уплаты НДС была реализована путем создания системы АСК НДС-2.
  3. 3. Общее описание решения Модуль Он-лайн сервисов проверки контрагентов АРМ Федеральные информационные ресурсы Данные контрагентов для проверки Модуль сопоставления Кластер серверов Hadoop Комплекс взаимодействия с налогоплательщиками Модуль камеральной налоговой проверки Oracle Exadata Результаты Сопоставлений и данные по декларациям Налогоплательщик Требования о предоставлении пояснений Налоговые декларации Данные из ФИР Данные из ФИР Данные из книг и журналов налоговых деклараций Основные этапы обработки данных в АСК НДС-2: • Прием налоговых деклараций • Обработка данных НД • Взаимодействие с ИФНС • Взаимодействие с налогоплательщиками
  4. 4. Характеристика обрабатываемых данных Проектные требования: • Плательщиков НДС - 1,5 миллиона • Количество поданных деклараций – 2 миллиона • Количество записей о СФ подлежащих сопоставлению – 3 миллиарда Реальные характеристики : • Количество поданных деклараций до 1,5 миллиона. • Количество записей о СФ подлежащих сопоставлению - до 1 миллиарда Особенности обработки и использования данных Объем данных за один налоговый период (квартал) Срок хранения данных и участия их в сопоставлениях - 7 лет Система должна поддерживает работу 30 000 пользователей в том числе 2 000 одновременно работающих пользователей Время ответа на зарос не более секунды на запросах до 1000 записей не более 5 секунд на запросах в 100 000 записей Ежесуточное технологическое окно на обработку данных - 5 часов Во время интерактивного обслуживания пользователей обработка данных не осуществляется Налогоплательщик имеет право поменять представленные данные неограниченное количество раз Рассчитанные расхождения могут многократно открываться, закрываться, менять значения атрибутов
  5. 5. Эволюция архитектуры Сервер обеспечения взаимодействия Расчет сводных данных Отбор расхождений в выборки Предоставление доступа к первичной информации Расчет агрегатов Кластер серверов Hadoop 16 узлов HDFS Низкие характеристики производительности пакетной обработки Большое время выполнения интерактивных запросов Сложный интерфейс разработки Модуль сопоставления Выполнение логических проверок Расчет КС Сопоставлениезаписей о СФ Расчет расхождений Hbase Информации о записях о СФ Информации о расхождениях Агрегаты Oracle Exadata Сводные данные по декларациям Данные бизнес-процесса Агрегаты 1
  6. 6. Эволюция архитектуры Сервер обеспечения взаимодействия Расчет сводных данных Отбор расхождений в выборки Предоставление доступа к первичной информации Расчет агрегатов Кластер серверов Hadoop 16 узлов HDFS Низкие характеристики производительности пакетной обработки Большое время выполнения интерактивных запросов Сложный интерфейс разработки Модуль сопоставления Выполнение логических проверок Расчет КС Сопоставлениезаписей о СФ Расчет расхождений Hbase Информации о записях о СФ Информации о расхождениях Агрегаты Oracle Exadata Сводные данные по декларациям Данные бизнес-процесса Агрегаты 1 SPARK Расчет сводных данных Отбор расхождений в выборки Предоставление доступа к первичной информации Расчет агрегатов Кластер серверов Hadoop 16 узлов HDFS Модуль сопоставления Выполнение логических проверок Расчет КС Сопоставлениезаписей о СФ Расчет расхождений Hbase Хранение информации о записях о СФ Хранение информации о расхождениях Хранение агрегатов Oracle Exadata Сводные данные по декларациям Данные бизнес-процесса Агрегаты 2 Нестабильность работы Большое время выполнения интерактивных запросов
  7. 7. Эволюция архитектуры Сервер обеспечения взаимодействия Расчет сводных данных Отбор расхождений в выборки Предоставление доступа к первичной информации Расчет агрегатов Кластер серверов Hadoop 16 узлов HDFS Низкие характеристики производительности пакетной обработки Большое время выполнения интерактивных запросов Сложный интерфейс разработки Модуль сопоставления Выполнение логических проверок Расчет КС Сопоставлениезаписей о СФ Расчет расхождений Hbase Информации о записях о СФ Информации о расхождениях Агрегаты Oracle Exadata Сводные данные по декларациям Данные бизнес-процесса Агрегаты 1 SPARK Расчет сводных данных Отбор расхождений в выборки Предоставление доступа к первичной информации Расчет агрегатов Кластер серверов Hadoop 16 узлов HDFS Модуль сопоставления Выполнение логических проверок Расчет КС Сопоставлениезаписей о СФ Расчет расхождений Hbase Хранение информации о записях о СФ Хранение информации о расхождениях Хранение агрегатов Oracle Exadata Сводные данные по декларациям Данные бизнес-процесса Агрегаты 2 Нестабильность работы Большое время выполнения интерактивных запросов Hive 2.0.0 (TEZ-LLAP) Расчет расхождений Расчет сводных данных Отбор расхождений в выборки Предоставление доступа к первичной информации Кластер серверов Hadoop 16 узлов HDFS Модуль сопоставления Выполнение логических проверок Расчет КС Сопоставлениезаписей о СФ Hbase Oracle Exadata Данные бизнес-процесса 3 ORC Хранениеинформации о записях о СФ Хорошие характеристики производительности при пакетной обработке. Удобный интерфейс разработки Проблемы с большим количеством одновременных запросов Длительное время отклика
  8. 8. Эволюция архитектуры Сервер обеспечения взаимодействия Расчет сводных данных Отбор расхождений в выборки Предоставление доступа к первичной информации Расчет агрегатов Кластер серверов Hadoop 16 узлов HDFS Низкие характеристики производительности пакетной обработки Большое время выполнения интерактивных запросов Сложный интерфейс разработки Модуль сопоставления Выполнение логических проверок Расчет КС Сопоставлениезаписей о СФ Расчет расхождений Hbase Информации о записях о СФ Информации о расхождениях Агрегаты Oracle Exadata Сводные данные по декларациям Данные бизнес-процесса Агрегаты 1 SPARK Расчет сводных данных Отбор расхождений в выборки Предоставление доступа к первичной информации Расчет агрегатов Кластер серверов Hadoop 16 узлов HDFS Модуль сопоставления Выполнение логических проверок Расчет КС Сопоставлениезаписей о СФ Расчет расхождений Hbase Хранение информации о записях о СФ Хранение информации о расхождениях Хранение агрегатов Oracle Exadata Сводные данные по декларациям Данные бизнес-процесса Агрегаты 2 Нестабильность работы Большое время выполнения интерактивных запросов Hive 2.0.0 (TEZ-LLAP) Расчет расхождений Расчет сводных данных Отбор расхождений в выборки Предоставление доступа к первичной информации Кластер серверов Hadoop 16 узлов HDFS Модуль сопоставления Выполнение логических проверок Расчет КС Сопоставлениезаписей о СФ Hbase Oracle Exadata Данные бизнес-процесса 3 ORC Хранениеинформации о записях о СФ Хорошие характеристики производительности при пакетной обработке. Удобный интерфейс разработки Проблемы с большим количеством одновременных запросов Длительное время отклика Hive 2.0.0 (TEZ-LLAP) Расчет расхождений Расчет сводных данных Расчет агрегатов Отбор расхождений в выборки Предоставление доступа к первичной информацииКластер серверов Hadoop 16 узлов HDFS Характеристики соответствующие требованиям Модуль сопоставления Выполнение логических проверок Расчет КС Сопоставлениезаписей о СФ Hbase Oracle Exadata Данные бизнес-процесса 4 ORC Хранениеинформации о записях о СФ Impala Хранениезаписей о СФ Отбор расхождений в выборки Предоставление доступа к первичной информации Parquet
  9. 9. Текущее состояние и планы развития В настоящее время реализован базовый функционал: • Централизованный доступ к информации предоставленной НП • Автоматизированная обработка представленной НП информации • Автоматизированное взаимодействие с налогоплательщиком в части отправки им требований и получения от них ответов • Средства оперативной и аналитической обработки полученной информации Основные направления развития: • Расчёт и контроль KPI процесса камерального контроля • Использование в АСК НДС-2 сведений об уплате других налогов • Использование данных других федеральных ведомств. • Реализация поиск схем уклонения от уплаты НДС с использованием методов прогностического моделирования с целью выявления определенных закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных
  10. 10. Пример аналитического отчета
  11. 11. Спасибо за внимание!

×