18+
18+

Томские студенты создали алгоритм для поиска имен президентов в новостях

ТГУ, Томские новости, хакатон лингвистический Томские студенты создали алгоритм для поиска имен президентов в новостях

Команды гуманитариев и программистов создали IT-проекты на единственном в России лингвистическом хакатоне LinguaHack. Победители разработали алгоритм для выявления в текстах новостей названий городов России, имен президентов и руководителей администраций областей, округов и других субъектов страны, сообщает пресс-служба Томского госуниверситета.

В LinguaHack приняли участие пять команд студентов ТГУ и ТУСУРа. В течение трех дней они решали кейсы по извлечению заданной информации из новостей, автоматической классификации текстов на положительные и отрицательные, созданию чат-бота для оптимизации колл-центров. Задания предоставили партнеры хакатона — информационное агентство ТАСС, МТС, консалтинговая компания Perfect Art.

Команда победителей NoName решала проблему выявления в текстах названий российских городов, имен президентов и руководителей администраций субъектов страны. Студенты Анфиса Сборщикова и Виктория Шилова (ФИЯ), Екатерина Атамасова (ММФ), Александр Раушкин (ТУСУР) создали библиотеки со списками всех требуемых субъектов и алгоритм, анализирующий, встречаются ли они в тексте новости или нет. Они также предложили правила для различения названий городов и имен или фамилий, например, Владимир-Владимир. Программа будет полезна новостным агрегаторам и СМИ для анализа актуальной политической повестки в регионах.

«В хакатоне предложил поучаствовать наш преподаватель. Темы кейсов были известны заранее, и мы решили, что хотим работать с извлечением сущностей из текста. Когда нам дали сам кейс, мы подумали, что это легко сделать. Но когда начинаешь копать глубже, то понимаешь, что все не так просто, в каждой категории есть масса исключений и особенностей, все-таки русский язык очень богатый. Решать это всё было очень интересно», — рассказала студентка факультета иностранных языков Анфиса Сборщикова.

Экспертами на хакатоне выступили начальник управления инновациями в сфере науки, техники и технологий ТГУ Михаил Головатов, программист Elecard-Med Company Валерий Дацюк, руководитель отдела исследований и разработок компании Perfect Art Андрей Орлови, старший инженер этой же компании Михаил Ожгибесов.

«Мы смотрели на понимание задачи, на проработку, то есть на ход мысли, провели ли обзор способов решения задачи. Когда начали реализовывать какой-то способ решения задачи, то какой был подход, как проверяли, работает или нет, что делали, чтобы исправить неработающее. Мы смотрели на то, как это решение было автоматизировано. И еще оценивали фишечки, которые ребята смогли скреативить за эти 2 дня, — искрометность презентации, какие интересные методологические решения применяли, например, проверка текстов из Википедии и другие», — рассказал Андрей Орлов, руководитель отдела исследований и разработок компании Perfect Art.

Компания Perfect Art предложила команде Pocket Coders, занявшей второе место, вместе продолжить работу над проектом по классификации текстов и наградила их специальными дипломами.

«Лингвахакатон задумывался для пропаганды новой магистерской программы „Компьютерная и когнитивная лингвистика“. Однако наиболее значимым его результатом стало выявление творческих талантливых студентов, способных работать в командах. Победители LinguaHack-2018 уже сейчас работают над проектом в составе лаборатории когнитивных исследований языка ТГУ. Победителей LinguaHack-2019 также ждут новые проекты лаборатории. Надеемся увидеть их и в числе абитуриентов магистерской программы, познакомиться с которой можно на занятиях „Школы компьютерной и когнитивной лингвистики“, которую мы проводим по субботам», — отметила профессор ТГУ Зоя Резанова.

Магистерская программа «Компьютерная и когнитивная лингвистика» открыта на базе САЕ «Институт человека цифровой эпохи» ТГУ. Студенты изучают формальные модели языка, языки программирования, математическую статистику, дисциплины, синтезирующие лингвистические и математические подходы (Text Mining), анализ естественного языка (NLP), основы психолингвистики, методы окулографии в лингвистических исследованиях и другие дисциплины. Обучение предусматривает много практики.

Тэги/темы: