Спецпроекты

Безопасность Бизнес Цифровизация Облака

Гузелия Мошнина, Cloud.ru: Чтобы ИИ заработал, нужны качественные данные

Данные становятся основой для принятия решений в любой индустрии — от банков до крупных промышленных холдингов. Ежедневно в системы управления и аналитики поступает информация из сотен источников. По оценке сервиса Statista, объем создаваемых данных каждый год растет не менее чем на 22%. Управлять ими все сложнее. О том, как делать это с помощью облачной платформы и инструментов для биг дата, рассказала технический эксперт направления «Данные и искусственный интеллект» провайдера облачных и AI-технологий Cloud.ru Гузелия Мошнина.

«Мы освобождаем наших клиентов от рутинных операций»

CNews: Какие факторы, по вашему мнению, влияют на рост ценности подхода, основанного на данных?

Гузелия Мошнина: Этот подход приобрел популярность еще в 90-х годах с появлением первых систем управления базами данных. С тех пор его востребованность только росла. В первую очередь это связано с ежегодным увеличением объема данных более чем на 20%, а также с тем, что интернет стал неотъемлемой частью повседневной жизни. Каждая компания стремится повысить эффективность и занять более выгодное место на рынке. Для этого нужны данные. Как они могут помочь? Даже в небольших компаниях сотрудники как минимум собирают информацию в Excel для более быстрого и точного принятия решений. С ростом компании появляется необходимость оптимизировать бизнес-процессы, управлять рисками, делать прогнозы и снижать затраты. Если говорить о современных подходах, то с учетом рыночных изменений последних пяти лет важно уметь быстро адаптировать процессы и цепочки поставок. Случилась пандемия, и привычные сценарии работы фактически обнулились. Как действовать дальше? Критически важно принимать решения не на основе интуиции, а с опорой на данные.

Второй значимый тренд — это персонализация. Если у вас сотни тысяч или даже миллионы клиентов на платформе, невозможно делать исключительно индивидуальные предложения для каждого из них. Поэтому необходимо использовать данные и продвинутые аналитические инструменты, включая искусственный интеллект, для создания эффективных персонализированных предложений и проверять подходы с помощью A/B-тестов.

Наконец, для искусственного интеллекта, о котором сейчас говорят даже больше, чем о данных, само качество данных — один из ключевых факторов. Недавно на конференции Data Summit, (посвященной наиболее востребованным практикам и российским решениям в области управления данными), обсуждалось, что около 30% проектов в области генеративного ИИ могут завершиться в этом году из-за низкого качества данных, высоких затрат или непрозрачных выгод для бизнеса.

Гузелия Мошнина, Cloud.ru: Для искусственного интеллекта, о котором сейчас говорят даже больше, чем о данных, само качество данных — один из ключевых факторов

CNews: Ваша компания реализует облачные хранилища данных. Чем такие решения лучше on-premise?

Гузелия Мошнина: Во-первых, это быстрый старт. Для развертывания on-premise решения необходимо закупить оборудование, что сегодня не всегда происходит быстро. Пока вы оформите заказ, дождетесь доставки и установки, пройдет немало времени. В облаке же для запуска хранилища достаточно зайти в консоль, нажать всего несколько кнопок, и через 40 минут у вас уже будет облачное КХД (корпоративное хранилище данных), готовое к подключению и загрузке информации.

Второе преимущество облака — оптимизация затрат. Вы можете постепенно добавлять мощности по мере необходимости и гибко подстраиваться под текущие задачи. Например, если вы решили создавать персонализированные предложения в онлайн-формате, вам не нужно заранее закупать большие мощности и вкладываться в капитальные затраты. Можно гибко тратить ресурсы в зависимости от задач, которые нужно решить прямо сейчас.

И главное: мы как провайдер инвестируем в развитие портфеля платформенных сервисов, занимаемся их обновлением и берем на себя рутинные задачи по поддержанию инфраструктуры. Это освобождает наших клиентов от механических операций, позволяя им сосредоточиться на более стратегических задачах, направленных на расширение бизнеса и поиск новых возможностей роста.

«Мы не просто предлагаем универсальное решение, а подбираем оптимальный подход и инструменты для каждого клиента»

CNews: Расскажите о ваших решениях в области управления данными.

Гузелия Мошнина: У нас большой портфель дата-инструментов, из которого мы можем собрать практически любую необходимую клиенту конфигурацию платформы данных. В апреле мы официально запустили сервис Evolution Managed Arenadata DB — аналитическую, распределенную СУБД, построенную на MPP-системе (архитектура обработки данных, которая позволяет выполнять вычисления параллельно на множестве серверов) с открытым исходным кодом Greenplum.

Также на конференции GoCloud мы анонсировали набор инструментов для реализации подхода к хранению и обработке данных в облаке Cloud.ru — Data Lakehouse. Он объединяет возможности хранения больших объемов неструктурированных данных и аналитики. Например, сервис Evolution Managed Trino, который помогает выполнять запросы к данным из разных источников, и Evolution Managed Metastore для управления метаданными. Кроме того, был представлен сервис Evolution Managed Spark, упрощающий развертывание и управление аналитическими приложениями.

Благодаря другим вендорским сервисам мы можем предложить различные среды для хранения информации, такие как S3 и HDFS. Мы работаем как с потоковыми, так и с пакетными данными в процессе загрузки. На нашей платформе также доступны сервисы векторного поиска и инструменты для создания AI-сервисов: сервис Evolution ML Inference и другие ML-инструменты Cloud.ru. Удобно, что все эти возможности сосредоточены в одном облаке.

CNews: У заказчика востребован комплекс услуг? Или какие-то отдельные сервисы?

Гузелия Мошнина: Ядром клиентской платформы данных станет либо база данных, либо набор инструментов, таких как S3, Trino и Metastore. Эти инструменты позволяют хранить данные в недорогом объектном хранилище, при этом обеспечивая доступ к ним как к реляционной базе данных. Клиенты могут выбрать конкретный сервис под свой запрос или быстро подключить сразу несколько — это еще одно из преимуществ облака.

CNews: Если говорить в целом о рынке, чем ваши решения отличаются от других? Какие есть преимущества?

Гузелия Мошнина: Мы считаем своим преимуществом широкий портфель специализированных сервисов и готовых к использованию и безопасных инструментов для работы с данными. Контейнерная архитектура позволяет реализовывать автомасштабирование, обеспечивать безопасность и гибкие настройки. Кроме того, возможность обучения на одних и тех же данных в рамках одного облака также входит в число преимуществ. Наконец, хочу упомянуть частные и гибридные облака, которые можно развернуть с помощью нашей платформы Cloud.ru Evolution Stack. Это особенно актуально для клиентов из более консервативных отраслей с особым регулированием, где требуется обработка конфиденциальных данных.

«Для нас безопасность — это основа бизнеса»

CNews: Что касается доверия, у бизнеса все еще сохраняются опасения по поводу облачных технологий. Как ваши решения обеспечивают защиту данных?

Гузелия Мошнина: Да, такое мнение действительно существует на рынке. Здесь важно понимать, что для нас безопасность — это основа бизнеса. Без комплексной безопасности мы не можем строить облачные решения. Мы обеспечиваем как информационную, так и физическую безопасность. Все наши ЦОДы сертифицированы по стандарту Tier 3 с SLA 99,982%. У нас есть лицензии ФСТЭК и ФСБ, а инфраструктура Cloud.ru соответствует всем требованиям законодательства и отраслевых регуляторов. Используя мощности Cloud.ru, можно безопасно работать как с финансовыми, так и с персональными данными.

CNews: Какой объем данных можно считать критическим для компаний, чтобы они начали выстраивать систему управления данными?

Гузелия Мошнина: Обычно это происходит по мере роста объемов данных и темпов расширения бизнеса. Растет культура работы с данными, меняются потребности клиентов и спрос на более глубокие стратегии работы с данными и инструменты для реализации data driven подхода. Если говорить о специализированных аналитических хранилищах, я бы обозначила 1 Тб как порог. Для меньших объемов данных можно использовать такие инструменты, как PostgreSQL — универсальную и наиболее популярную реляционную базу данных. При объеме информации свыше 1Тб обычно универсальных инструментов уже недостаточно, и на этом этапе уже возникает необходимость в создании хранилища данных.

«Они перешли на единое аналитическое хранилище, не нанимая дополнительно команду для его обслуживания»

CNews: Можете рассказать о кейсах использования ваших дата-сервисов?

Гузелия Мошнина: Да, например, это «Ренессанс страхование». Они используют аналитическую базу данных Evolution Managed Arenadata DB из нашего облака. Это полностью управляемый PaaS-сервис с тарификацией pay-as-you-go. Хотя компания также работает и с другим облачным провайдером, именно для создания КХД был выбран наш сервис. В компании отмечают, что для них важны не только технологии и возможности сервиса, но и индивидуальный подход к клиенту.

Второй кейс — один из крупнейших сервисов электронных и аудиокниг «Литрес» использует облачное решение Cloud.ru для организации КХД. В компании успешно настроили управление своей платформой данных с помощью четырех сотрудников благодаря использованию нашего сервиса. Объем созданного корпоративного хранилища составляет 9 Тб, и это еще не окончательная цифра. В этом случае идея о том, что мы освобождаем команду от рутинных работ для решения более стратегических задач, полностью оправдывает себя. «Литрес» может покрывать все аналитические потребности, не увеличивая штат: от простых запросов до построения сквозной аналитики и data driven подхода.

Облачное хранилище данных позволило консолидировать поступающую информацию из разных источников и систем, организовать безопасное хранение и ускорить обработку этих данных, а также выстроить обмен ими внутри компании и с партнерами.

CNews: Как они раньше справлялись до внедрения вашего продукта?

Гузелия Мошнина: В компании использовали несколько разрозненных аналитических систем, и большая часть времени уходила на рутинные операции. Сбор управленческой отчетности занимал несколько дней. Теперь команда «Литрес» перешла на единое аналитическое хранилище, не нанимая дополнительно сотрудников для его обслуживания. Это позволило сократить время обработки данных с трех дней до нескольких часов. Благодаря этому небольшая команда смогла высвободить ресурсы для проведения дополнительной аналитики, направленной на повышение эффективности бизнеса.

CNews: Как планируете развивать и совершенствовать свои облачные продукты?

Гузелия Мошнина: Я уже упоминала концепцию Data Lakehouse, которая появилась в 2020 году благодаря американским исследователям. Этот термин подразумевает объединение преимуществ централизованного КХД и озера данных. КХД представляет собой единое хранилище, куда мы складываем реляционные данные. Когда информации стало больше, она перестала туда помещаться. Это очень дорого. Появилось озеро данных, где мы начали хранить большие объемы информации в более дешевых решениях, таких как S3 или HDFS. Но у озер данных есть свои недостатки: часто трудно разобраться, какая именно информация там находится, что снижает эффективность их использования. Именно поэтому даже появился термин «болото данных».

Data Lakehouse объединяет два подхода. C одной стороны, мы используем дешевые хранилища — S3 и HDFS. Мы развиваем инструменты, такие как Evolution Managed Trino и Evolution Managed Metastore, которые позволяют обращаться к данным в объектном хранилище как к реляционным. Описываем их через метаданные в Evolution Managed Metastore и используем единый движок Evolution Managed Trino для доступа к этим данным. Это ключевой путь развития нашей платформы. Даже если от привычных реляционных баз данных не отказываются, КХД часто начинают расширять с помощью более эффективных по затратам систем хранения. Инструменты доступа к данным позволяют скрыть сложность хранения от аналитиков и систем. То есть аналитик продолжает использовать привычный инструмент, в то время как мы можем оптимизировать процессы хранения.

CNews: Что бы вы могли посоветовать тем компаниям, которые сейчас находятся на пути к формированию системы управления данными? На что им стоит обратить внимание?

Гузелия Мошнина: Управление данными — это обширная тема. Сложность заключается в том, что здесь переплетаются вопросы организации команд, процессов работы с данными, распределения ответственности и налаживания коммуникации, а также выбора технологических инструментов, которые поддерживают эти процессы. Часто технологии оказываются меньшей из сложностей. До появления специализированных инструментов бизнес пытался решать проблему описания данных с помощью простого ведения страниц в Confluence (система для совместной работы), фиксируя информацию о происходящем. Но документация всегда отставала от реальной жизни.

В ответ на эти вызовы стали развиваться концепции гибридного централизованного хранения, такие как Lakehouse. Благодаря метаданным они позволяют описывать различные источники данных и извлекать из них ценность. Кроме того, появились дата-каталоги, которые собирают всю информацию о данных внутри компании в едином ресурсе, что упрощает процесс управления данными.

Эффективное управление и развитие культуры работы с данными — ключ к повышению конкурентоспособности бизнеса. Облачные решения предоставляют гибкий и удобный доступ ко всем необходимым инструментам для хранения и работы с больших объемов информации. Используя облако, компании могут сосредоточиться на самых важных задачах, передать провайдеру рутинные вопросы, администрирование и поддержку, минимизируя технические сложности и улучшая бизнес-процессы.

Рекламаerid:2W5zFJNTpsJРекламодатель: ООО "Облачные технологии"ИНН/ОГРН: 7736279160/5167746080057Сайт: https://cloud.ru/ru

Короткая ссылка