Что хотел сказать автор?
13 ноября 2014
Что хотел сказать автор?
- 482
- 0
- 1
-
Автор
-
Редакторы
Статья на конкурс «био/мол/текст»: На уроках литературы этот вопрос не раз ставил в тупик юных любителей точных наук. И если разумному существу не всегда под силу уловить смысл текста, то как нелегко, должно быть, обучить этому машину. А между тем, непостижимое количество сведений хранится именно в текстовой форме: от научных статей до больничных карт, от патентов до записей в блогах, — погребенная в бумажной и цифровой форме информация ждет своего автоматического читателя!
Конкурс «био/мол/текст»-2014
Эта статья представлена на конкурс научно-популярных работ «био/мол/текст»-2014 в номинации «Биоинформатика и молекулярная эволюция».
Главный спонсор конкурса — дальновидная компания «Генотек».
Конкурс поддержан ОАО «РВК».
Спонсором номинации «Биоинформатика» является Институт биоинформатики.
Спонсором приза зрительских симпатий выступила фирма Helicon.
Свой приз также вручает Фонд поддержки передовых биотехнологий.
Совершенно очевидно, что всех книг не прочитать, всех языков не выучить, всех фактов не узнать. Одних только статей биологического и медицинского профиля опубликовано свыше 24 миллионов, мы же не ждем, что ученые их все прочитают? Но представим теперь такую ситуацию: во время испытаний нового лекарства для похудения пациенты впадают в мрачнейшее отчаяние, несколько человек пытаются покончить жизнь самоубийством, кто-то, увы, успешно. Что если кто-то когда-то где-то написал что-то, что в каком-то смысле предсказывало такой поворот событий? Когда речь идет о человеческих жизнях, мы уже не просто хотим, мы требуем, чтобы все такие показания были найдены, прочитаны и приняты к сведению! Требуем ли мы невозможного, вот вопрос.
Вот если бы мы знали все то, что мы уже по сути знаем! Проблема далеко не нова, однако в последнее время разрыв между скоростями производства и анализа информации, кажется, велик, как никогда. Сократить этот разрыв, помочь выжать максимум из биологических данных, будь то числа, изображения или текст, — одна из задач биоинформатики.
Направление, которое в качестве данных использует текст, называется компьютерной обработкой естественного языка. Текст, конечно, может быть любым, не только биологическим. Так, многие компьютерные лингвисты оттачивают свои подходы на сообщениях в Twitter — социальной сети, которая не позволяет писать сообщения длиннее 140 символов. Но мы обратимся именно к текстам биологической и медицинской тематики.
Язык естественный-научный
Говорить о компьютерной обработке естественного языка применительно к биологическим и медицинским текстам можно только с долей иронии: естественным такой язык можно назвать с натяжкой. Вот типичные примеры текстов, которые пишут биологи и медики:
- научные статьи (статья научная, стиль наукообразный);
- патенты (нарочито неестественный язык);
- больничные карты пациентов (вообще не нуждается в дополнительных комментариях, но сколько бесценной информации о болезнях и лечении в них содержится).
Пишут, кроме того, не только ученые, но и объекты их исследований: пациенты жалуются на болячки в социальных сетях и ругают лекарства на форумах, вот здесь, напротив, используется исключительно естественный, но не вполне научный, язык.
Что же пытаются сказать все эти авторы? Про что они пишут и что за факты содержатся в их текстах? Давайте по порядку.
Главные действующие лица
История с лекарством и потенциальным побочным эффектом, которую я привела выше, — довольно типичный пример того, что хотелось бы научиться искать в тексте. Помимо химических соединений и болезней, это могут быть термины из анатомии (например, «мозг» или «клетки печени»), клеточные и физиологические процессы (например, «деление» или «сердцебиение»), белки и гены.
Казалось бы, наука оперирует однозначными и строгими понятиями, что должно существенно упростить поиск нужных слов по сравнению с обычными текстами, где разные авторы могут понимать под одним и тем же словом совершенно разные вещи (например, взять хотя бы такие простые слова, как «дешево» или «скучно»). Но когда дело доходит до употребления научной терминологии, ученые тоже люди. Что общего у Yuri Gagarin, yuri, dmel и CG3172? Как вы уже догадались, это все названия одного и того же гена! Часто один ген открывали и, соответственно, называли, в нескольких разных лабораториях. Часто ученые давали гену веселое название (особенно славятся этим исследователи плодовых мушек), но потом оказывалось, что ген участвует в чем-то совсем невеселом, и пациентам, которым рассказывают про мутации в гене «еж Соник», не до смеха. Так или иначе, практически каждый биологический термин имеет синонимы, некоторые — десятки синонимов. Это значит, что эффективный поиск и обработка информации невозможны без словарей, в которых все разные способы написания были собраны в одном месте.
Но допустим, что вы хотите выяснить, как лекарство влияет на психическое здоровье человека. И у вас даже есть необходимый словарь синонимов. Но в единственной статье, которая могла бы ответить на ваш вопрос, написано, что «препарат ухудшает настроение пациентов». Тот термин, который вы использовали, чтобы сформулировать вопрос, отличается от того, который использовался в ответе, как же быть? Словарь тут не поможет. Чтобы иметь возможность оперативно переходить от общего к частному, обращаются к классификациям и иерархиям терминов — онтологиям и таксономиям.
Стоит отметить, что многие из вас, сами того не замечая, уже успешно используют онтологии и таксономии: вы можете искать фильм по жанру, вы можете зайти в раздел интернет-магазина «музыкальные инструменты» и обнаружить там и гитары, и оборудование для караоке, а потом перейти в секцию духовых инструментов, где будут флейты и трубы. Комфортный поиск и навигацию вам обеспечивает кем-то прописанная иерархия: труба → духовой инструмент → музыкальный инструмент.
Наряду со словарями, онтологии и таксономии помогают не только распознать термин буквально, но и при необходимости расширить запрос. Так, «настроение» будет концепцией, связанной с психическим состоянием, а психическое состояние будет, в свою очередь, связано с психическими болезнями, и факт, что лекарство влияет на настроение, будет учтен при оценке риска возникновения депрессии.
Существует множество классификаций биологических и медицинских терминов: так, американский Национальный центр биомедицинских онтологий поддерживает коллекцию из 402 онтологий, описывающих свыше 5,5 миллионов понятий! За каждой из них стоит труд многих людей, каждая служит своей задаче. Например, Международной классификацией болезней пользуются врачи, чтобы стандартизировать диагнозы и упростить сбор статистики. Для аннотации научных статей ключевыми словами применяют Медицинские предметные рубрики (Medical subject headings, MeSH), а знания ученых о функциях генов представлены в Генной онтологии (GeneOntology).
Посмотреть на пример того, как онтологии работают в поиске, можно в системе GoPubMed. Если вы наберете catalytic activity (каталитическая активность), то найдете статьи, упоминающие ферменты (сработала информация из GeneOntology). А если наберете mood disorders (расстройства настроения), то найдете статьи и про депрессию, и про биполярное расстройство (сработала информация из MeSH). Вы можете поэкспериментировать с тем, как обрабатываются термины в этой системе, на примере собственного текста.
Точное распознавание термина во всех его вариациях позволяет решить сразу несколько проблем, но, как известно, понять каждое слово в отдельности не означает понять смысл высказывания в целом. Потому что, чтобы понять высказывание в целом, нужно обратиться к синтаксису.
В огороде бузина, а в Киеве дядька
Бессознательно разбирая фразу про бузину и дядьку по членам предложения, мы делаем заключение о взаимосвязи огорода и бузины, но не дядьки и Киева. Каким мучительным не казался бы вам поиск подлежащего, сказуемого и дополнения на уроках русского языка, на практике ваш мозг справляется с этой задачей быстро и эффективно. Если каким-то образом воспроизвести этот процесс алгоритмически, можно выуживать из текста логические связи между биологическими терминами, а это гораздо интереснее, чем просто найти термин. Возьмем простейший случай:
Белок Rb регулирует процесс деления клетки.
Это предложение состоит из субъекта (того, кто совершает действие, «белок Rb»), объекта (того, над чем, совершается действие, «процесс деления клетки») и глагола, который описывает само действие («регулирует»). Такая простая схема: субъект — действие — объект, пусть и является упрощением, все же позволила ухватить основной смысл фразы.
Как бы автор ни сформулировал свою мысль:
Клеточное деление управляется Rb.
Rb участвует в регуляции клеточного цикла,
С точки зрения машины, это один и тот же факт: субъектом, по-прежнему, является Rb, объектом — клеточное деление, а действием — регуляция. Один алгоритм распознал части речи, а другой использовал словари, чтобы свести вместе синонимы.
Оценить преимущества использования грамматического разбора можно на примере бесплатной системы Quertle. Допустим, вы хотите узнать, какие белки, помимо Rb, регулируют клеточный цикл. Посмотрите на результаты поиска в базе биомедицинской литературы PubMed. Поиск завершен, а ответ так и не найден! Вам все еще предстоит перелопатить почти 4,5 тысячи статей или отыскать хороший обзор. А теперь результаты поиска, опирающегося на словари и грамматику: за одно нажатие вы нашли и литературу, и список белков (в левой панели). Другие примеры инструментов автоматического анализа биологического текста можно найти в подборке по ссылке.
Лингвисты продолжают совершенствовать алгоритмы синтаксического и семантического анализа. Перед ними стоит множество сложнейших задач: как правильно работать с перечислениями («белок Rb и Bcl2 регулируют деление и смерть соответственно»), как понять, к чему относится местоимение, которым автор заменил субъект или объект («... он регулирует процесс деления клетки»). Вещи, которые нам кажутся интуитивно понятными, не так-то просты!
А что автор, возможно, сказать не хотел
К сожалению или к счастью, никакой, даже самый унылый научный текст не состоит из одних только фактов. Авторы, как правило, не только излагают сведения, но и сознательно или бессознательно заявляют свое к ним отношение. Попытки автоматически распознать эмоциональный окрас высказывания прежде всего важны для общественных наук, но и в биологии найдется место сантиментам.
Предположим, вы хотите узнать, чем лечить страшный вирус Э. Согласитесь, что эти два предложения будут иметь для вас разную ценность:
- В подтверждение ранее полученным сведениям, лекарство X излечило 68% пациентов, зараженных страшным вирусом Э.
- По-видимому, есть основания полагать, что соединение Y обладает некоторой активностью в отношение и других подобных вирусов, например, Э.
Во втором случае, автор явно осторожничает. Ему, с одной стороны, хочется застолбить идею за собой, но одновременно доказательств у него явно недостаточно. Вот если бы он был журналистом, то писал бы просто: «Ученые вылечили все вирусы», но увы... Он выдал себя, и теперь компьютерная программа, снабженная списками слов, которыми люди подчеркивают свою уверенность или неуверенность, споткнется о его предложение и пометит его как неблагонадежное. А вот у первого предложения индекс достоверности будет довольно высоким.
Некоторая сухость и стилистическое однообразие научного текста здесь даже на пользу: ученые используют один и тот же набор слов, и степень проявления их эмоций колеблется примерно в одних диапазонах. В других жанрах аккуратно оценить настрой текста в значительно сложнее, так, например, крайняя восторженность может быть как положительной оценкой, так и сарказмом.
Когда мысли в порядке
Если использовать вышеперечисленные подходы, чтобы обработать все 24 миллиона биологических и медицинских статей, эта пугающая масса текста приобретет тот формат, который вы пожелаете. Управляя словарями биологических концепций, логических связок (регулирует, активирует, мутирует, транспортирует, участвует) и обозначениями степени уверенности автора, вы можете создать базу данных, в которой удобно будет находить и визуализировать ту информацию, которая вам интересна. Можно будет запросить, какие психологические параметры ухудшаются при использовании лекарства, или какие еще белки регулируют клеточный цикл. В качестве примера базы данных, для пополнения которой используется автоматическое извлечение информации, можно привести PharmGKB — ресурс, посвященный фармакогеномике.
Базы данных, которые создаются путем извлечения фактов из научной литературы, используются не только для поиска фактов, но и для анализа экспериментальных данных. Современные методы позволяют измерить активность всех генов разом: вы можете, например, сравнить опухоль и здоровую ткань и выяснить, что их отличает активность сотен генов. Но как интерпретировать эту информацию? Можно прочитать все статьи про каждый из генов, чтобы попытаться отыскать какую-то закономерность, а можно воспользоваться знанием, уже извлеченным за вас из литературы. За одно нажатие клавиши алгоритм сделает явным то, что значительное количество этих генов, как и Rb, регулируют клеточный цикл.
Заключение
Компьютерная обработка естественного языка — увлекательная и стремительно развивающаяся область. Мы едва-едва коснулись небольшой ее части — анализа биомедицинских текстов, — но этим, конечно же, возможности не исчерпываются. Люди пишут обо всем, что их волнует, зачастую и не подозревая, что их читают и машины! Политика, финансы, маркетинг, — вот лишь несколько примеров других направлений, где активно используются подходы компьютерной лингвистики.
Нелегок путь от информации к знанию, еще сложнее — от знания к мудрости. Помогут ли нам автоматические методы или придется опять думать самим?