НЕКОТОРЫЕ АСПЕКТЫ МАШИННОГО ПЕРЕВОДА ПИСЬМЕННЫХ ДОКУМЕНТОВ С КИТАЙСКОГО ЯЗЫКА НА РУССКИЙ


УДК 004.9; 81-13; 811.581
Зелко Виктор Михайлович (кандидат филологических наук, доцент) НЕКОТОРЫЕ АСПЕКТЫ МАШИННОГО ПЕРЕВОДА ПИСЬМЕННЫХ ДОКУМЕНТОВ С КИТАЙСКОГО ЯЗЫКА НА РУССКИЙ
45097706350000Аннотация. Статья посвящена проблемам машинного перевода в условиях многоязычной ситуации. Показана актуальность автоматизированных средств переработки информации в современном быстроразвивающемся мире. Дана краткая история развития теории и практики машинного перевода. Рассматриваются современные проблемы разработки и создания системы информационного машинного перевода с китайского языка на русский.
Ключевые слова: Машинный перевод, информационный МП, Интернет, виртуальное киберпространство, онлайн переводчики, компьютерная лингвистика, лингвостатистические исследования.
Актуальность исследования.
Научно-технический прогресс ставит большие задачи перед специалистами в области вычислительной техники и информатики. Всеобщая компьютеризация всех сфер жизни и деятельности человека рассматривается как одна из важнейших задач развития науки и техники, интенсификации экономики, ускорения социального развития общества, расширения культурных, экономических и торговых отношений между народами разных стран.
При широком внедрении электронной техники во всех звеньях системы управления важное значение приобретают усилия по массовой автоматизации различных информационных процессов, таких как сбор, передача, накопление и переработка информации, в том числе на иностранных языках. Одной из наиболее сложных форм переработки информации с помощью ЭВМ является машинный перевод (МП), осуществляемый без участия или с минимальным привлечением человека и ориентированный, прежде всего, на оперативное информационное обслуживание специалистов.
С расширением сферы человеко-машинных коммуникаций проблема автоматизированного перевода письменных текстов с одного языка на другой, не имеющая в своей постановке каких-либо ограничений на язык, стала задачей грубого, промышленного, так называемого информационного машинного перевода узких классов научно-технической, экономической и коммерческой документации. Информационный МП, как результат электронной обработки различных документов, «грубый» по качеству, с некоторыми отклонениями от традиционных норм языка, но понятный специалисту в данной предметной области, с незначительным постредактированием или без такового (в зависимости от условий дальнейшего использования) становится эффективным и наиболее оперативным видом переработки массового потока текстовой информации.
Информационный МП, как наиболее перспективное средство повышения оперативности в работе по информационному обеспечению, еще с 50-х годов XX века привлекает внимание различных научных, торгово-промышленных, военных и иных ведомств США, Германии, Японии, других стран. На исследования в области МП и разработку новых систем ассигнуются огромные финансовые средства, исчисляемые сотнями миллионов долларов и ежегодно увеличивающиеся в двукратных и даже в трехкратных размерах. На зарубежном коммерческом рынке переводов широкое применение получили мощные, быстродействующие системы МП серии СИСТРАН, используемые в рамках Европейского экономического сообщества в целях многоязычного перевода технических текстов. Наряду с Комиссией европейских сообществ основными пользователями этой системы выступают ВВС США, НАСА, ЦРУ, фирмы «Джэнэрал моторс», «Ксерокс» и другие. При скорости перевода двадцатилетней давности 300.000 слов в час и стоимости 8 долларов за страницу, по мнению зарубежных экономистов, МП выгоден даже при доработке его вручную. Правительство США рассматривает машинный перевод как задачу стратегической важности для своей страны, как ключевую проблему для развития высоких технологий и обеспечивающую конкурентоспособность США в глобальном информационном пространстве.
Широких размахов область МП достигла в последнее десятилетие. Увеличилось количество коммерческих систем, разнообразных по форме и структурным особенностям. Сегодня говорят уже об «индустрии машинного перевода». Скорость перевода в современных системах, в том числе – разработанных в России, год от года растет и уже достигает десятков страниц в секунду, а себестоимость имеет резкую тенденцию к снижению. Постоянно расширяется география научных исследований в этой области. Так, согласно анализу специальной литературы, работу по созданию систем МП ведут более 30 стран. Особенно высокого уровня индустрия МП достигла в Японии, где, благодаря усилиям специалистов, разработано гибкое сочетание новейших достижений компьютерной техники и вычислительной лингвистики с использованием разнообразных форм человеко-машинного взаимодействия.
Микрокомпьютерная революция, массовый выпуск различных видов персональных компьютеров, планшетов, смартфонов и всевозможных гаджетов в значительной мере стимулировали разработку принципиально новых систем машинной переработки информации, которые стали доступны и небольшим организациям и даже отдельным лицам. Создаются микросистемы под названием «личные переводчики» для реализации на персональных компьютерах в целях ведения деловой документации с одновременным переводом. Создание и бурное развитие всемирной сети Интернет делает сегодня чрезвычайно актуальной проблему разработки и адаптации новейших быстродействующих и эффективных систем машинной атрибуции текстовой информации в режиме реального времени. Машинный перевод – это эффективное средство для просмотра и поиска информации на иностранном языке, а именно эта функция является главной при работе в Интернете. Таким образом, в настоящее время МП становится информационной реальностью, поскольку он является уникальным гуманитарным инструментом, позволяющим преодолевать проблемы общения разноязычных наций.
Лингвистические основы создания систем МП, заложенные еще пионерами МП А. Бутом, У. Уивером, А. Тьюрингом, И. Бар-Хиллелом, в нашей стране нашли свое дальнейшее развитие в работах И.К. Бельской, О.С. Кулагиной, И.А. Мельчука, Ю.А. Моторина и других, обосновавших главные принципы алгоритмизации лингвистических процессов МП с европейских языков на русский. Дальнейшее теоретическое и практическое обоснование машинных методов обработки естественно-языковой информации разработано Н.Д. Андреевым, Р.Г. Пиотровским, Р.Г. Котовым, Ю.Н. Марчуком, Л.Л. Нелюбиным, и другими учеными, чьи работы явились ценным вкладом в развитие отечественного машинопереводоведения.
Признавая МП как сложную инженерно-лингвистическую проблему, учеными в области прикладной лингвистики одним из важнейших условий эффективности системы МП признается ее четкая ориентация на определенный подъязык с учетом лингвостатистических и информационных характеристик текстов данной языковой подсистемы. Такой подход позволяет более полно выявить особенности и структуру исследуемой функциональной подсистемы, создать на этой базе специальные машинные словари для данной предметной области, разработать принципы построения необходимых лингвистических процедур, определить основные приемы взаимодействия человека с машиной в процессе электронной обработки информации.
Развитие теории и практики МП в нашей стране и за рубежом, диктуемое интересами информационного обслуживания общества, привело к созданию различных систем, осуществляющих как полный, так и фрагментарный перевод текстов (например, заголовков, ключевых слов и т.п.); как в автоматическом, так и в интерактивном режиме; как без редактирования входного текста и продукта перевода, так и с участием пред-, интер- и/или постредактора. Многообразие форм и методов МП и полученные в ходе их реализации практические результаты, подтверждают правильность инженерно-лингвистических концепций, положенных в основу стратегии современного промышленного МП.
Китайско-русский машинный перевод. Особо стоит вопрос о разработке теории МП с китайского языка и, тем более, построения системы китайско-русского МП. Значительный экономический рост Китая за последнее десятилетие, расширение внешнеторговых и научных отношений между Россией и КНР, увеличивающийся год от года поток китайской специальной литературы и научно-технической документации, подлежащей обработке в сжатые сроки, делают весьма актуальной проблему создания автоматизированных средств отбора и переработки информации на китайском языке. Сложность этой проблемы обусловлена отсутствием фундаментальных исследований в данной области, как в России, так и в других странах, в том числе – в самом Китае. Более того, проблема обостряется специфичностью китайской письменности, до недавнего времени трудно совместимой с компьютером. Однако, успехи, достигнутые в создании систем МП с европейских и некоторых восточных языков, и бурное развитие микропроцессорной техники, обещающее в ближайшем будущем полностью устранить языковый барьер между иероглифом и компьютером, позволяет сделать оптимистические предположения не только о возможности, но и эффективности создания системы МП с китайского языка на русский.
Следует отметить, что в настоящее время на безграничных просторах Интернет, то есть в виртуальном киберпространстве, состоящем из миллионов информационных ресурсов практически на всех основных языках мира, можно найти не только любую открытую информацию, но и более-менее приемлемые программные средства автоматизированной обработки информации в условиях многоязычной ситуации. Это так называемые переводчики онлайн, позволяющие, по крайней мере, заглянуть по ту сторону языкового рубежа и при наличии хороших знаний предмета речи попытаться понять суть информационного сообщения. Степень адекватности восприятия иноязычной информации, переведенной с помощью подобных программных средств, зависит, прежде всего, от экстралингвистических отличий входного и выходного языков. Так, если перевод осуществляется между родственными языками, например, с украинского на русский, то качество автоматической дистрибуции будет близким к ручному переводу. И наоборот, пара языков, кардинально отличающихся друг от друга по всем лингвистическим параметрам, как например, китайский и русский, в результате машинного перевода может полностью разочаровать человека, который будет пытаться воспользоваться услугами подобного онлайн помощника.
Одной из первых попыток в нашей стране найти оптимальный путь решения данной проблемы является предложенное автором научно-экспериментальное исследование, ориентированное, прежде всего, на достижение конкретных практических результатов.
Целью исследования нашего является разработка лингвистического обеспечения и методики алгоритмизации китайско-русского информационного машинного перевода применительно к текстам заданного класса на базе предложенной автором сегментарно-иконической концепции МП в рамках общей концепции воспроизводящих инженерно-лингвистических моделей, и создание на этой основе простой и практичной действующей автоматизированной системы в виде персонально-профессионального АРМ переводчика с возможностью включения ее в технологический процесс автоматизированной обработки информации в условиях спецкоммуникации.
Задачи исследования включают:
1. Исследование специфики лингвистического обеспечения МП с китайского языка на фоне общих проблем МП как важнейшей формы обработки текстовой информации; выбор концепции ввода иероглифических текстов в ЭВМ; разработка системы кодирования китайских иероглифов.
2. Создание функционально-коммуникативной и лингвостатистической моделей исследуемой языковой подсистемы, с анализом роли и места текстов заданного класса в системе китайского языка, проведение структурно-номенклатурного, лексико-грамматического и статистического анализа лингвистического наполнения репрезентативного пакета оригинальных материалов.
3. Разработка принципов построения и создание лингвистической базы модели-прототипа системы МП, исходя из общей модели перевода и лингвостатистической модели заданного пакета текстов на основе разработанной методики отбора семантически значимых статистически устойчивых сегментов текста оригинала.
4. Разработка лингво-алгоритмической структуры системы МП, алгоритмического обеспечения процедур предредактирования, перевода, постредактирования, процедур управления системой; программная реализация разработанных алгоритмов в виде простой и эргономичной инженерно-лингвистической модели действующей системы МП и проверка на ней гипотез, выдвинутых в ходе опытно-экспериментального исследования.
Работа базируется на анализе китайских оригинальных документов по линии смешанных российско-китайских коммерческих водных перевозок. Всего исследуемый массив составил 7530 документов объемом более 200.000 иероглифов. В ходе исследования был рассмотрен круг вопросов, посвященных комплексному анализу материалов служебных документов заданного класса с позиций функционально-коммуникативной и лингвостатистической моделей микроподъязыка. Результаты анализа исследуемых материалов определяют микроподъязык китайского служебного документооборота как относительно закрытую, строго фиксированную и в значительной степени формализованную языковую подсистему, характеризующуюся минимальным наличием сложных синтаксических структур и доминирующей ролью устойчивых штампов и шаблонов.
Методика исследования определяется необходимостью решения целого комплекса лингвистических и инженерно-математических задач, связанных с алгоритмической и программной реализацией главной цели работы. В связи с этим в качестве основной методики исследования были использованы методы системного анализа и лингвистического моделирования с проверкой на ЭВМ.
В теоретическом плане настоящее исследование является первой попыткой создания методики лингвостатистического исследования отдельной относительно открытой подсистемы китайского языка, функционирующей в условиях спецкоммуникации. Количественные характеристики лингвистического наполнения текстов заданного класса, полученные в ходе исследования по предложенной методике, открывают широкие возможности для дальнейшего теоретического осмысления логико-информационного построения специальных подъязыков, степени их формализации в зависимости от конкретного ситуативного влияния, особенностей функционирования лексико-синтаксических образований, клишированных конструкций и других языковых единиц.
На основе сочетания функционально-коммуникативного и лингвостатистического принципов анализа текстов выработан научно-обоснованный подход к вопросам специфики изучения иероглифического и лексико-фразеологического наполнения китайских специальных текстов. На основании изучения особенностей функционирования исследуемой формализованной языковой подсистемы (микроподъязыка) в условиях спецкоммуникации разработана методика алгоритмизации обработки китайских материалов заданного класса.
К элементам новизны данного исследования относится теоретическое обоснование возможности автоматической сегментации китайского текста на информационно значимые, семантически оформленные цепочки иероглифов и инородных вкраплений (сегментов), выступающих в качестве единицы перевода. Программно-алгоритмическая реализация предложенного метода автоматической сегментации полностью подтверждает правомерность указанного обоснования. При отсутствии видимых границ слова в китайском языке решение данной проблемы представляется определенным вкладом в теорию и практику МП.
Машинная реализация разработанного алгоритма по переводу документов с китайского языка на русский и результаты, полученные в ходе его апробации, полностью подтвердили вывод о возможности создания интерактивной системы МП в целях автоматизации обработки китайских деловых документов. Результаты эксплуатации построенной нами опытно-экспериментальной системы китайско-русского информационного машинного перевода убеждают нас в правильности теоретических выводов о путях решения проблемы автоматизированного перевода указанных материалов в условиях спецкоммуникации. Это стало возможным благодаря избранной нами концепции МП, основанной на идее переводных соответствий, теоретически обоснованной и практически доказанной отечественными и зарубежными учеными, представителями практического направления МП.
Разработанные нами алгоритмы сегментарно-иконического перевода доказывают правомерность выбора в качестве единицы машинного словаря (МС) устойчивого сегмента, выраженного сочетанием статистически оформленных групп текста. Такой подход позволил нам решить главную проблему машинного перевода с китайского языка - автоматическую сегментацию текста на единицы перевода при отсутствии видимых границ семантически оформленных лексических сочетаний.
Лингвистическое обеспечение системы МП, представленное словарем статистически устойчивых сегментов в совокупности с репрезентативным набором фонетических значений иероглифов гарантирует адекватное понимание 95 % информационных документов пользователями, не владеющими китайским языком. Применение интер- и постредактирования различной глубины, а также увеличение объема МС, примерно, до 50 тыс. словарных единиц обеспечит высокую оперативность и надежное качество перевода.
Исследование возможностей совершенствования системы китайско-русского информационного машинного перевода убеждает нас в целесообразности реализации ее на современных компьютерах, характеризующихся высоким быстродействием, достаточным объемом памяти для размещения машинных словарей, программного обеспечения, входных и выходных документов, а также компактностью и автономностью работы. Включение системы машинного перевода в АИС создает целостную систему автоматизированной обработки специальных информационных документов в условиях многоязычной ситуации.
В ходе научно-экспериментального исследования не были полностью решены задачи изучения избыточности информации, заложенной в лексических единицах; прогнозирования вероятных ошибок, допускаемых на различных этапах прохождения информации. Недостаточно полно изучены статистические характеристики устойчивых сегментов текста, что объясняется сложностью разработки специального программного обеспечения. Применение современных средств вычислительной техники с пакетом программ для статистического анализа позволит провести более полное исследование лексико-синтаксического наполнения текстов заданного класса. Это будет способствовать улучшению алгоритмического построения автоматической сегментации входного текста, уточнению и дополнению машинных словарей, и в целом, расширению возможностей системы машинного перевода и повышению оперативности обработки информации.
Исследование лингвистических, статистических, информационных и иных особенностей китайских текстов и дальнейшее совершенствование на этой основе экспериментальной системы китайско-русского информационного машинного перевода будет продолжено с учетом решения практических задач по улучшению информационного обслуживания российских организаций (служб, ведомств и т.п.), а также частных лиц, занимающихся внешнеторговыми, культурными, научными и другими связями с КНР.
Блок-схема алгоритма программы «Перевод»
Исследование лингвистических, статистических, информационных и иных особенностей китайских текстов и дальнейшее совершенствование на этой основе экспериментальной системы китайско-русского информационного машинного перевода будет продолжено с учетом решения практических задач по улучшению информационного обслуживания российских организаций (служб, ведомств и т.п.), а также частных лиц, занимающихся внешнеторговыми, культурными, научными и другими связями с КНР.Принципы разработки опытно-экспериментальной системы МП с китайского языка на русский могут быть использованы при построении автоматизированных систем обработки информации на других языках, в первую очередь – на языках стран Юго-Восточной Азии. Машинный перевод с восточных языков – не просто теоретическая проблема прикладной лингвистики, а неуклонно растущая объективная реальность глобального информационного пространства, требующая от нашей науки гигантских усилий в этом направлении, чтобы не оказаться в стороне от столбовой дороги развития мировой цивилизации.
В качестве примера работы программы «Перевод» приведём небольшой оригинальный китайский документ и покажем последовательность компьютерной обработки для получения вполне читабельного информационного перевода в масштабе реального времени.
Текст документа на китайском языке:
俄方商业航运局, 请转告苏或夫先生,
抄航标科.
按局调通知我报船位:
拖(205)昨十点锚泊110航标雾停十二点雾消后拖(205)上航.
货(603)因严重破坏搁浅228航标.
请俄方派抢救船到228标协助脱浅. 请协助船人员登俄岸.
脱浅后你船找货(603)下航即返哈修理主机.
特此通知. 如同意请报我科.
商业科. 2014 年七月十日.
Промежуточный этап работы программы «Перевод».
На данном этапе работы системы китайско-русского информационного машинного перевода (КРИМП) осуществляется автоматическая сегментация китайского текста на информационно значимые, семантически оформленные цепочки иероглифов и инородных вкраплений (сегментов), выступающих в качестве единицы перевода. При этом задействованы два машинных словаря (МСФ – машинный словарь фонетиков и МСС – машинный словарь слов). При отсутствии искомого иероглифа в МСС в подпрограмму печати передается только его фонетическое звучание согласно словарю фонетиков (МСФ), который служит для обозначения каждого иероглифа латинизированной транскрипцией в соответствии с нормативами китайского специального языка «пиньинь». Это дает возможность добиться более точного варианта перевода и при необходимости контролировать правильность работы системы в случае отсутствия искомого сегмента текста в машинном словаре. При положительном исходе поиска семантически значимого сегмента в МСС результат передается в подпрограмму формирования перевода, после чего происходит сдвиг на число переведенных иероглифов. Далее цикл повторяется до конца обрабатываемого документа. Конечный результат выдается на печать (или записывается в файл) в виде комбинированного текста иероглифов и фрагмента перевода.

俄方商业航运局, 请 转告苏或夫先生РОССИЙСКАЯ СТОРОНА УПРАВЛЕНИЕ
КОММЕРЧЕСКИХ
ПЕРЕВОЗОК ПРОСИМ ПЕРЕДАТЬ ТОВАРИЩ СУХОВ
, 抄 航标科. 按 局调 通知我报 船位 :
КОПИЯ ОТДЕЛ СЛУЖБЫ СУДОХОДНОГО ФАРВАТЕРА ПО СООБЩЕНИЮ ДИСПЕТЧЕРСКОЙ УПРАВЛЕНИЯ
ИНФОРМИРУЕМ
О НАВИГАЦИОННОЙ
ОБСТАНОВКЕ

拖(205) 昨 十点锚泊110 航标雾停БУКСИР №205 ВЧЕРА 10 ЧАСОВ СТАЛ НА ЯКОРЬ 110 СТВОР ОСТАНОВКА ИЗ-ЗА ТУМАНА 十二点雾消后 拖(205) 上航.
12 ЧАСОВ ПОСЛЕ ТОГО КАК ТУМАН РАССЕЯЛСЯ БУКСИР
№205 ВВЕРХ
ПО ТЕЧЕНИЮ
货(603) 因 严重破坏搁浅228 航标.
ГРУЗОВОЕ СУДНО №603 ПО ПРИЧИНЕ СЕРЬЕЗНОЕ
ПОВРЕЖДЕНИЕ
СЕЛ НА МЕЛЬ 228 СТВОР 请 俄方派 抢救船到 228 标 协助ПРОСИМ РОССИЙСКАЯ СТОРОНА ПОСЛАТЬ СУДНО-СПАСАТЕЛЬ ПРИБЫТЬ 228 СТВОР ОКАЗАТЬ ПОМОЩЬ 脱浅. 请 协助船人员登俄岸.
СНЯТЬСЯ С МЕЛИ ПРОСИМ ПОМОЧЬ ЭКИПАЖ СУДНА ВЫСАДИТЬСЯ НА РОССИЙСКИЙ БЕРЕГ
脱浅后你船找 货(603) 下航即返ПОСЛЕ СНЯТИЯ
С МЕЛИ ВАШЕМУ
СУДНУ ВЗЯТЬ
НА БУКСИР ГРУЗОВОЕ
СУДНО№603 ВНИЗ ПО ТЕЧЕНИЮ СРОЧНО ВЕРНУТЬСЯ
哈 修理主机.
ХАРБИН РЕМОНТ ГЛАВНОГО
ДВИГАТЕЛЯ
特此通知 . . 如 同意请报我科.
О ЧЕМ ОСОБО УВЕДОМЛЯЕМ ЕСЛИ СОГЛАСНЫ ПРОСИМ СООБЩИТЬ В НАШЕ ОТДЕЛЕНИЕ
商业科. 2014 年 七月十日.
ОТДЕЛЕНИЕ
ТОРГОВЛИ 2014 ГОД 10 ИЮЛЯ
После работы основного модуля программы «Перевод» осуществляется корректирование и постредактирование переведенного текста с помощью дополнительного модуля системы «Постредактор» с целью придания результату перевода более читабельного вида.
Переведенный китайский документ на русском языке:
Российская сторона, управление коммерческих перевозок.
Просим передать товарищу Сухову, копия в отдел службы судоходного фарватера.
По сообщению диспетчерской управления информируем о навигационной обстановке: буксир № 205 вчера в 10 часов стал на якорь у 110 створа, остановка из-за тумана. В 12 часов, после того как туман рассеялся, буксир № 205 пошел вверх по течению. Грузовое судно № 603 по причине серьезного повреждения село на мель у 228 створа.
Просим российскую сторону послать судно-спасатель к 228 створу для оказания помощи по снятию с мели. Просим помочь экипажу судна высадиться на российский берег.
После снятия с мели вашему судну взять на буксир грузовое судно № 603 и следовать вниз по течению, срочно вернуться в Харбин для ремонта главного двигателя.
О чем особо уведомляем. Если вы согласны - просим сообщить в наше отделение.
Отделение торговли. 2014 год 10 июля.
Вывод: результат работы вполне соответствует требованиям информационной обработки оригинальных китайских документов в масштабе реального времени. Это подтверждает правильность выбранной нами концепции и работоспособность разработанного нами программно-лингвистического комплекса китайско-русского информационного машинного перевода.
Список использованной литературы:
Зелко В. М. Проблемы разработки лингвистического обеспечения системы китайско-русского информационного машинного перевода. Канд. дис. – М.: Ин-т языкознания АН СССР, 1991. –165 с.
Зелко В.М. Машинный перевод как информационная реальность (К вопросу о китайско-русском информационном машинном переводе). // Телекоммуникации, математика и информатика – исследования и инновации. – СПб, 2012.
Зелко В.М. К вопросу об иероглификации виртуального киберпространства. Информационная безопасность. // Сборник трудов научно-практической конференции. – Таганрог, 2012.
Марчук Ю.Н. Основы компьютерной лингвистики. – М.: СигналЪ, 1999. – 225 с.
Марчук Ю. Н. Проблемы машинного перевода. – М.: Наука, 1983.
Zelko V.M. Artificial Intelligence and Machine Translation in the XXIst Century. (Искусственный интеллект и машинный перевод в XXI веке). // Journal of Quantitative Linguistics, Vol. 10, No. 3. 2012.
© В.М. Зелко, 2017

Приложенные файлы


Добавить комментарий