Статья на конкурс «Био/Мол/Текст»: Нейросети уже давно вышли за рамки обычного языка: сегодня они уверенно справляются с биологическими последовательностями. GENA Language Models — семейство языковых моделей, созданное исследователями Института искусственного интеллекта AIRI для анализа геномных данных и обнаружения в них скрытых закономерностей. Модель учитывает до 36 тысяч нуклеотидов, при этом умея выявлять сложные взаимосвязи, что позволяет предсказывать влияние генетических вариантов, обнаруживать регуляторные элементы и перспективе способствовать развитию медицины. Далее, я расскажу, как нейросети, использующие принципы обработки последовательностей, схожих с теми, что используются в моделях человеческого языка, могут как бы «читать» и интерпретировать ДНК, и почему такой подход меняет способы работы биологов с геномными данными.