ИИ-сервис для создания аудиоверсий научных книг разработали в НГУ

NGU 1400x900В Новосибирском государственном университете запустили сервис по автоматическому созданию аудиоверсий книг из оцифрованной части фонда Научной библиотеки университета. Проект основан на разработках Исследовательского центра искусственного интеллекта (Центра ИИ) НГУ и проходит этап апробации. Пилотный проект позволит перевести в аудиоформат около семи тысяч изданий, а затем предложить решение другим библиотекам.

Пока речь идет о переводе в аудиоформат книг университетского издательства и материалов, размещенных в электронной библиотеке, с разрешения правообладателей, уточнили в пресс-службе вуза.

Озвучивание выполняет нейросеть: текст извлекается из PDF, проходит предварительную обработку, после чего формируется звуковая версия.

«В перспективе мы планируем перевести в аудиоформат все книги, представленные в электронной библиотеке НГУ. Сейчас это около 7 тысяч изданий», — рассказал ведущий научный сотрудник Центра искусственного интеллекта НГУ, кандидат физико-математических наук Евгений Павловский.

По его словам, сервис не предполагает полной замены традиционного чтения, а создается как альтернативная форма доступа к тексту.

«Мы не делаем художественную озвучку, полностью повторяющую оригинал. Это дополнительный способ работы с книгой. Для массового использования важно, что решение не является ресурсоемким: на одну книгу уходит примерно полчаса процессорного времени, причем речь о 16-ядерном процессоре, даже без видеокарты», — пояснил ученый.

Сервис создан на базе фреймворка «Каппа», разработанного в Центре ИИ НГУ. Он предназначен для управления датасетами и моделями искусственного интеллекта, их тестирования и оценки перед внедрением в рабочие процессы. Фреймворк позволяет проверять корректность работы моделей и снижать риск ошибок или так называемых «галлюцинаций» ИИ. В новом проекте «Каппа» используется для подготовки обучающих данных для озвучки и сбора обратной связи о качестве результата.

В пилотном режиме уже озвучены первые сто книг, сейчас команда ожидает обратную связь от библиотеки и пользователей. Вот один из примеров работы сервиса.

В НГУ подчеркивают, что проект рассматривается как технологическая апробация. После отработки самой технологии и механизмов взаимодействия с библиотекой, сервис может быть предложен другим университетам и публичным библиотекам через партнерскую платформу или в каких-то иных форматах.

По оценке разработчиков, с точки зрения вычислительных ресурсов само озвучивание всего фонда возможно в течение месяца, однако на организационную подготовку и верификацию результатов озвучки может потребоваться до года.

Источник: портал «Десятилетие науки и технологий»

Поделиться