Обработка естественного языка

person access_time9-01-2018, 15:56 visibility1 787 chat_bubble_outline0

(Natural language processing) - ключевой подход к созданию чат-ботов, голосовых интерфейсов и вообще любого искусственного интеллекта, который нас понимает. Мы задавали вопросы, нам отвечали знающие люди.

Что такое обработка естественного языка (NLP)?

Это способность компьютеров понимать человеческую речь, одно из направлений искусственного интеллекта.

Разговорная речь: почему это сложно?

Человеческая речь сложнее языка программирования.
Вот только один из примеров. Возьмем две фразы: “Мы отдали бананы обезьянам, потому что они были голодные” и “Мы отдали бананы обезьянам, потому что они были переспелые”.
Для человека совершенно очевидно, что обозначение “голодные” относится к обезьянам, а “переспелые” к бананам. Но для компьютера это сложная задачка.
Сложность вызывают еще и омонимы, многозначные слова, неологизмы. Что и говорить человеческая речь полна нюансов. Знания всех грамматических правил не гарантируют владения языком.

Серьезно? А были ли попытки объяснить компьютеру все правила и скормить всевозможные словари?

Эта идея лежит на поверхности, но как показывает практика — она совершенно недееспособна.
Этому в доказательство абсолютно провальный проект Сайк (англ. Сус).
Целью Сайка было создание искусственного интеллекта, путем ввода в компьютер всех необходимых данных. В 1980-х годах руководитель проекта Дуглас Ленат предрекал успех в течение десяти лет, но вот уже прошло почти три десятилетия, но никаких утешительных прогнозов мы не получили.

Проблема заключается в том, что закодировать абсолютно все не выйдет. В книге “Верховный алгоритм” Педро Домингоса есть красивая метафора: “Представьте себе, что фермерам приходилось бы проектировать каждый початок кукурузы, вместо того, чтобы засеять семена и дать им вырасти”.

Ситуация изменилась с появлением машинного обучения. Компьютеры начали использовать комбинации естественных и смоделированных характеристик — “признаков”. Эти данные позволяют компьютеру более точно понимать значение слова.
К примеру, типичная задача по обработке естественного языка может включать распознавание имен в фейсбук-постах.

Мы можем сказать, что имя обычно пишется с большой буквы и почти наверняка его можно найти в списке детских имен. Используя эти векторы признаков, мы начинаем обучать компьютер. Так, если «ваня» написано с маленькой буквы, компьютер все еще должен распознавать его как имя, потому что оно есть в списке детских имен. Затем нам нужно будет протестировать созданный шаблон, используя разные публикации на фейсбук. Если компьютер в результате отделит имена от не-имен, то наша модель успешна.

Какое отношение обработка естественного языка имеет к большим данным?

Большие массивы данных — это материал для обучения. Компьютер считывает огромное количество текстов и спустя какое-то время готов выводить собственные наблюдения. Объединив их с уже имеющимися правилами, он начинает овладевать языком.
Говорят, некоторые программы уже так здорово научились разговаривать, что готовы заменять копирайтеров.

Siri это тоже NLP?

Да, обработка речи, благодаря которой Siri нас понимает, это тоже технология, применяющая NLP. К примеру, она позволяет Siri превратить вопрос о популярных заведениях в поиск рекомендованных мест для ужина в Foursquare.
Обрабатывать речь умеет и Amazon Echo, и Джарвис (домашний помощник Цукерберга).

Есть еще сферы, где применяется обработка естественного языка?

Наверняка вы хоть раз пользовались Google-переводчиком. Именно NLP-технология автоматического перевода позволяет ему работать. В отличие от других переводчиков, Google использует для перевода тексты с миллионов страниц интернета. И, надо признать, делает это гораздо лучше. Хотя, идеальным его перевод и не назовешь. Пока не назовешь.

Еще одна технология — это автоматическое реферирование — создание краткого изложения длинного текста с сохранением наиболее важной информации.
Реферирование извлекает ключевые предложения и составляет из них связный текст.
Есть сервисы, предлагающие автоматическое реферирование онлайн.

Применяется ли NLP в других сферах, не связанных с лингвистикой?

Юридические компании сочетают тематическую сегментацию и информационный поиск для создания поисковых баз судебных решений.
Мы уже упоминали программу-копирайтера. Ее могут использовать и большие корпорации, и медиа.
Есть и программы, которые умеют вычислять комбинации слов в тексте. Так биомедик может увидеть взаимосвязь между генами и белками и сформулировать новую гипотезу.

Анализ тональности текста позволяет численно выразить эмоциональную окраску постов в социальных медиа или в интернете. Эту технологию используют маркетологи, пиарщики и бренд-менеджеры.
tagsКлючевые слова
Ctrl
Enter
Заметили ошЫбку
Выделите и нажмите Ctrl+Enter

Другие статьи

Исправляем ошибку установки обновлений Windows 10

Исправляем ошибку установки обновлений Windows 10

persons_moryachok access_time01-мар-2024

Windows 10 — это уже не самая новая операционная система от Microsoft, но иногда пользователи

Сброс сетевых настроек Windows - командная строка

Сброс сетевых настроек Windows - командная строка

persons_moryachok access_time01-мар-2024

Сетевые проблемы могут быть очень раздражающими и влиять на нашу работу и повседневную жизнь. В

Добавить комментарий

Комментарии (0)