Машинный перевод для армии

Подробности: Опубликовано: 23 Мая 2018

(Синопсис статьи опубликован в журнале Арсенал Отечества №2 2018)

Всегда по-хорошему вспоминаю годы моей срочной солдатской службы в Советской Армии. Как ни странно, я любил там на досуге(!) читать армейские уставы, не учить, не выполнять, а именно читать! Мне дико нравился тот чистый, рациональный, лаконичный и понятный русский язык, которым уставы были написаны. Ну просто армейское воплощение классической русской литературы! Этот язык легко понимали даже самые неразвитые солдаты, весь личный запас слов у которых едва ли превышал лексикон пресловутой Эллочки-людоедки. Полагаю, что тут проявлялась глубинно-вековая традиция русской армии - использовать в командах, наставлениях, уставах только те слова и выражения, которые максимально знакомы абсолютно всем чинам армии сверху-донизу, независимо от социального слоя, уровня образования и личностного развития. То есть язык, хорошо понятный основной массе народа России.

С 1999 года я работаю в Центре антропометрической (ортопедической) косметологии и коррекции при волгоградской областной больнице РЖД , в который на операции постоянно приезжают пациенты со всех континентов планеты. На сегодняшний день зафиксировано 46 стран, из которых лечились или лечатся наши пациенты. С теми, что из ближнего зарубежья, проблем нет, они либо знают, либо сносно владеют русским языком. С дальними сложнее: приходится либо приглашать им переводчиков, либо общаться с ними на английском. Руководящий персонал Центра и ведущие врачи вполне сносно понимают и изъясняются по-английски, а вот средний и младший персонал не владеют... А ведь именно они больше всего общаются с нашими инопациентами, когда те восстанавливаются после операций в больничных палатах. Без словесного взаимопонимания возникает слишком много проблем на ровном месте, которые отвлекают врачей и руководство Центра от более важных дел. Поэтому решили попробовать те переводческие приложения, с которыми можно общаться голосом через смартфоны. Было устроено предварительное тестирование. В присутствии наших переводчиков попытались разговаривать с нашими инопациентами через гаджеты самыми простыми фразами на простые темы. Вышел полный кошмар! Перевод оказался настолько коряв, что было трудно уловить даже общий смысл сказанного, к тому же он получался ещё и нестабильным, одни и те же фразы в разное время переводились по-разному. Тогда обратились за консультацией в компании машинного перевода, а те ответили, что сумели бы настроить нам переводческие приложения так, чтобы персонал вполне сносно мог общаться на элементарные темы с иностранцами, а компании постепенно, по мере привыкания наших людей, расширяли бы тематические возможности этих приложений. Но цена, которую Центру пришлось бы платить за эти услуги, оказалась такой, что превышала имеющиеся у нас неудобства. Вот тогда я впервые и задумался, а почему собственно машинный перевод, не смотря на все компьютерно-программные достижения, неспособен даже на простейшем уровне заменить переводчика-человека? Причём буквально сразу же я обратил внимание, что все переводческие программы в той или иной степени как раз и пытаются воспроизводить методику мышления живого переводчика. Впрочем это и понятно, другой методики в природе существовать не может, а специалисты по компьютерной лингвистике часто сами начинали как специалисты-переводчики. Надо сказать, что сам я никаким иностранным языком не владел и не владею. Но когда-то очень давно увлекался изучением искусственного языка международного общения "эсперанто". И овладел им достаточно прилично, во всяком случае свободно мог изъясняться с эсперантистами других стран, бывая в этих странах. Обычно утверждают, что иностранным языком можно овладеть за три года, если заниматься по несколько часов каждый день. А эсперантисты говорят, что занимаясь таким же образом, можно усвоить эсперанто за три месяца. И правда, этот искусственный язык имеет очень лёгкую грамматику, строгую морфологию, логичен как последовательный ряд математических формул, и никаких исключений-завихрений, которые во множестве приходится зазубривать при изучении естественных языков. Эсперанто идеально подходит для передачи краткой, ёмкой и сугубо конкретной информации иноязычному собеседнику. А ведь именно такой способ лучше всего подходит для общения разноязычных людей, когда они вынуждены общаться или просто этого хотят. Как бы там ни было, но, благодаря эсперанто, я сам получил опыт переводчика, так как в разных странах обеспечивал общение моих друзей-эсперантистов с моими соотечественниками, которые не владели ни эсперанто, ни языком страны пребывания. На базе этого скромного опыта я и начал строить свои первые умозаключения о возможности рождения методики машинного перевода, которая бы максимально подходила как для людей, так и для компьютеров.

Исходя опять же из своего опыта, я составил приблизительную модель того, как работает мышление человека-переводчика в процессе живого разговора. Прежде всего он заранее и точно представляет себе тему разговора, а переводит его, получая от собеседников короткие фразы из двух-трёх, а часто из одного предложения в виде готовых контекстов, в которых однозначно ясен смысл каждого слова. Затем он мысленно строит фразу на другом языке так, чтобы она максимально точно передавала смысл, именно - смысл - а не слова предыдущего собеседника, и озвучивает её собеседнику иноязычному, стараясь исходить из понятий и традиций его страны с её народом. И когда я задумался, что же мешает современным суперкомпьютерам с суперпамятью без всякой забывчивости, с немыслимими для человека скоростями перебора вариантов и подсчётов, неутомимым и бесчувственным вот также, по достаточно примитивной схеме, переводить столь же точно и понятно, как это делает переводчик-человек? И без всяких философских выкладок понял - не могут, потому что не соображают, не мыслят, а без этого никак. Именно попытка создать машинного переводчика наиболее наглядно доказывает на сегодня невозможность создания искусственного интеллекта, хоть как-то приближенного к интеллекту не то что человеческому, но даже животному. Всё просто - любой компьютер, суперкомпьютер, сеть из кучи компьютеров соображать не способны! Потому что не живые! Потому что они просто счёты, арифмометры, конечные автоматы... Количество их внутренних состояний всегда конечно, изменяется только от внешних сигналов-команд, и даже если заложить в компьютер программу самообучения, то она будет только увеличивать в нём конечное число внутренних состояний, исходя из каких-то внешних сигналов, которые она способна распознать, и всегда будут такие, которые она распознать неспособна, а соответственно и отреагировать. Можно создать компьютер с таким количеством внутренних состояний, в виде знаний и умений - на которые неспособны не то что животные, но и множество людей, но нет таких компьютеров, которые, как человек или животное могли бы сами познать, научиться использовать или избегать опасности со стороны неожиданного и совершенно незнакомого явления или обстоятельства. Потому что, напоминаю, у неживых систем количество внутренних состояних конечно и управляется по неизменным программам, а у систем живых оно бесконечно, и вырабатываются эти внутренние состояния как от сигналов внешних, так и от сигналов, порождаемых внутри самой системы самым непредсказуемым и непрограммируемым образом. Это и есть живая способность к соображению-мышлению, вещь мистическая, абсолютно непознанная, как тайна самой жизни. Наиболее продвинутые читатели мне могут возразить, указав на то, что уже есть компьютеры, обыгрывающие в шахматы чемпионов мира. Да, это так... И система шахматной игры, как порождение человеческого ума, показала, что число её внутренних состояний, то бишь игровых комбинаций, подсчёту не поддаётся. Но теория конечных автоматов неумолима и даёт достаточно простое объяснение. История шахматной мысли гласит, что каждый шахматный гений в начале пути, опираясь на свою память, аналитику и скорость мысли, быстро изучал все выигрышные партии своих выдающихся предшественников. Используя эти знания, легко побеждал более слабых соперников, а когда сталкивался с теми, кто обладал не меньшим багажом знаний и опыта, то придумывал свои личные приёмы игры, создавая свои победные партии. Но затем этот опыт приучал его действовать автоматически, пока не появлялся новый соперник, который своей личной манерой игры преодолевал победоносный опыт предыдущего чемпиона. То есть можно сказать, что на каком-то этапе своего развития, победоносный опыт шахматных чемпионов стирает ту живость мысли, которая когда-то и вывела их в чемпионы. Они продолжают играть блистательно, сложно, но в чём-то - предсказуемо... То есть в какой-то степени превращаются в конечные автоматы. Именно это и использовали программисты шахматного суперкомпьютера. Они заложили в его программу все имеющиеся победоносные партии великих шахматных чемпионов всех времен и народов. Такой умственный багаж не под силу никакому человеческому уму, в этой же программе были заложены все известные возможные переходы от розыгрыша одной партии к другой в зависимости от действий соперника. После этого пригласили к игре чемпионов мира. И получилась игра двух конечных автоматов, только один в процессе игры способен уставать, волноваться, забывать, терять сосредоточенность, долго раздумывать, а другому всё это чуждо. Вот и "подмялся" человек машиной! Но я абсолютно уверен, что если бы собралась группа великих шахматистов, поиграла бы с компьютерным монстром, спокойно проанализировала все свои партии и в конце концов нашла способ его обыграть, причём потом сами шахматисты удивлялись бы, сколь легко это можно было сделать, нащупав серию нестандартных комбинаций, не имевшихся в памяти компьютера. Правда эта серия в следущей игре уже бы не помогла, ибо сразу вбилась в компьютерную память вместе с нужными ответными ходами, которые программисты выспросили бы у тех же шахматистов.

Осознав вышенаписанное, я приступил к знакомству с действующими методиками машинного перевода и обнаружил, как уже сказано выше, что все эти наборы взаимосвязанных программ работают приблизительно одинаково, то есть заданные им тексты они анализируют тематически, грамматически, пытаются уловить смысл отдельных фраз и связать его с традициями языка, истории и географии страны этого языка, после чего идёт основная работа по статистическому сравнению с находящимися в памяти системы ранее переведёнными текстами схожей тематики. После этого выдаётся результат, который проверяется и дорабатывается окончательно человеком-переводчиком. Результат этот тоже закладывается в память системы для помощи в переводе других текстов. Такие программы перевода можно настраивать для повышения их результативности, и чем уже специализированная тематика и выше повторяемость задаваемых текстов, тем эффективнее настраивается переводческая программа. На этой же основе были созданы и приложения для голосового общения между разноязычными людьми для переносных гаджетов, естественно, что без длительной и тщательной настройки они работать неспособны, но даже и после такой индивидуальной, тщательной и дорогостоящей настройки возможности общения будут очень ограничены, то что сгодится для разговоров с одним собеседником или группой собеседников, может оказаться практически непригодным для других. Ну и зачем тогда платить за такие настройки? Вот и нет сейчас настоящих программ-разговорников для тех же туристов. А ведь именно такие программы, на мой взгляд, и должны стать высшим достижением для машинного перевода.

Далее я решил посмотреть, а какие же методы машинного перевода изобретены и запатентованы на сегодняшний день. Порылся в базе данных Роспатента и обнаружил там один-единственный патент под названием "Адаптивный машинный перевод" от 2010 года, заявка от 2004 года, за номером 2382399, патентообладатель - компания Майкрософт, США. Проштудировав патент, я увидел, что в нём изложена схема работы со статистическими и вспомогательными программами машинного перевода, имеющимися и создающимися на сегодняшний день. Именно по этой схеме работают все доступные источниковые (open source !) программы-"движки" в интернете, которые берут и настраивают для своих пользователей все компании машинного перевода в мире, одновременно и бесплатно пополняя базу данных переводческой системы самого Майкрософта.

В блок-схеме переводческого способа компании Майкрософт особый интерес у меня вызвал элемент под названием "источник надёжной информации", то есть если пользователь работает над своим переводом, пользуясь переводческим движком, привязанным к интернету, то те куски текста или отдельные фразы, которые ещё не заложены в статистической памяти системы, отправляются ею в некий центр, где либо люди-переводчики переводят этот фрагмент, либо специалисты обрабатывают его с помощью особых программ, после чего перевод фрагмента предоставляется пользователю, одновременно оседая в базе системы. Компании редко пользуются системой перевода с выходом в интернет, чтобы не нарушить конфиденциальность своей служебной информации, да и незачем, если есть свои люди-переводчики, которые переведут фрагменты, оказавшиеся не по зубам компьютеру. А вот для бытового-рядового пользователя система с выходом в интернет могла быть подходяща, но во-первых она платная, а во-вторых она просто зависнет и захлебнется от бесконечного и частого разнообразия запросов от индивидуальных пользователей. Её настройка на такую работу станет просто невозможной! Впрочем, она невозможна в любом случае, ибо неисправимо порочен сам статистический способ перевода. Человеческая речь слишком изменчива и непредсказуема, она тоже не вмещается в рамки конечного автомата, поэтому её статистический анализ для целей перевода всегда будет безнадёжно отставать от её развития и изменения, бесконечно требуя бесконечных вычислительных мощностей и скоростей.

Придя к такому выводу, я задался вопросом, а зачем в способах машинного перевода обязательно стараться воспроизводить полностью схему работы человеческого мозга, которая всегда будет недостижима для любого конечного автомата? Если задача для компьютера нерешаема, то может быть облегчить ему задачу? Смириться с мыслью, что любая, самая умная машина всегда всего лишь помощник, но никак не равноправный партнёр, и, исходя из этого, бесконечно совершенствовать таких помощников, не ставя им запредельных задач? Тут я снова вспоминаю пример с проигрышами чемпионов мира шахматному суперкомпьютеру... Они проиграли ему потому, что сами уподобились вольно или невольно конечным автоматам, и в этом качестве конечно же не могли выиграть у более мощной системы. Но там было соперничество. А что если в машинном переводе применить такую же схему с обратным знаком? Создать сотрудничество мощного конечного автомата- исполнителя с командующим конечным автоматом, роль которого исполнит человек. То есть человек во взаимодействии с компьютером-переводчиком ограничит свои требования строгими и предсказуемыми рамками, в которых не будет места живой спонтанности, и компьютер получит комфортные условия работы, отвечающие его технической, а не живой сущности, которой в нём нет и быть не может! Руководствуясь такой постановкой задачи, я за семь лет работы, затратив два последних года на патентование(горжусь, американцы на получение своего патента в России затратили 6 лет!), зарегистрировал летом 2017 года своё изобретение, номер патента 2628202 под названием "Адаптивный контекстно-тематический машинный перевод"(можно ознакомиться на сайте Роспатента!). В этом способе всё будет работать так... Пользователь устно или письменно задаёт переводческой системе некий текст. Система принимает его не целиком, как прежние системы, а каждое законченное предложение-фразу по отдельности, тут же начиная эту фразу переводить. На экране своего гаджета пользователь после каждой фразы своего текста видит другую фразу на своём родном языке, так называемую стандартную фразу, которую система нашла в своей памяти в качестве аналога, наиболее точно отражающего смысл того, что говорится во фразе, заданной пользователем. Наряду со стандартной фразой, на экране возникают названия тем, которые этой фразе способны соответствовать. Пользователь выбирают нужную тему и даёт команду на перевод, после чего стандартная фраза переводится точно и однозначно на иностранный язык в виде имеющейся в памяти системы на этом языке парной стандартной фразы. Если в задаваемом тексте окажется фраза, которой в памяти системы не имеется соответсвующей стандартной фразы, то она вместе с полным текстом, который задаёт к переводу пользователь, попадает в источник надёжной информации, где компьютерные лингвисты и переводчики подбирают ей стандартный аналог и тему, делают перевод и закладывают это всё в память системы. Если пользователь увидел на экране стандартную фразу, парную фразе заданной из текста, но не увидел среди набора тем ту, что отвечала бы смыслу фразы, то он сам набирает название нужной темы и отсылает в источник надёжной информации, а там делают соответствующий стандартный перевод фразы и тоже всё закладывают в память системы. Так она беспрерывно пополняется, обогащается и самообучается. И будет вполне годиться для работы с гаджетами обычных индивидуальных пользователей, именно на них она прежде всего и рассчитана. Но профессиональным переводчикам она тоже способна облегчить работу гораздо рациональнее статистических систем перевода. Вот как это будет выглядеть... Переводчик даёт сигнал системе - "работает профессионал"! После этого запускает свой текст, смотрит на экран, выбирает темы для стандартных фраз и даёт команды на перевод. После того, как получает всё, что системе удалось перевести, сам переводит фразы, которые система не смогла осилить. Затем окончательный перевод всего текста посылает системе в источник надёжной информации, где это соответственно обрабатывается и закладывается в систему. После чего, переводчик, если ему это нужно, требует от системы, чтобы она перевела этот текст ещё на несколько других языков. А система это сделает буквально мгновенно, ибо у каждого предложения в тексте уже однозначно подобраны парные стандартные фразы и соответствующие им темы, так что "думать" не надо, только чистый поиск-перебор по базам данных. Если не особо вникать, то может возникнуть вопрос, а чем моё предложение лучше статистического метода, если принципиальная проблема вечного "догоняния" живой речи никуда не исчезла? Формально всё так и есть. Но я исходил из того, что когда простые разноязычные люди общаются между собой, то делают это обычно недолго и поверхностно, как временные и случайные знакомые, да ещё и достаточно торопливо. Они жаждут донести друг другу короткую точную информацию с небольшим набором тем, и в этом случае моё предложение будет вполне работоспоспособно и востребовано. Особенно, когда люди привыкнут работать с этой системой. Я больше чем уверен, что они с удовольствием начнут запоминать стандартные фразы из системы, чтобы не ждать их подбора, если сказанная фраза нестандартна. Среди молодёжи разговор стандартными фразами, которые гаджет способен сразу же перевести на другой язык, может стать модой, трендом, мейстримом, и как они ещё это по-своему называют... Тут же встаёт вопрос, а что должно стать речевой основой для будущих стандартных фраз в системе контекстно-тематического перевода? Я считаю, что речевой основой стандартных фраз в компьютерной системе контекстно-тематического перевода должен стать язык классической литературы всех языков мира. И я предлагаю это отнюдь не из морально-воспитательных или эстетических соображений, а чисто практически. Классическая речь легко усваивается, отлично понимается носителями языка и быстро, точно, немногословно переводится на иностранную литературно-классическую речь. Данный способ машинного перевода прежде всего предназначен для непосредственного общения разноязыких людей между собой. И если он будет удачно реализован, то это должно резко увеличить потоки во всех видах международного туризма. Таким образом операторам туристического бизнеса есть прямой резон помочь во внедрении этого метода, причём самой массового и несложного его сегмента, который станет фундаментом для дальнейшего и более глубокого развития таких систем машинного перевода. Этот же фундаментальный сегмент будет иметь серьёзное военно-прикладное значение, ибо самые первые карманные переводчики появились как раз в армии, точнее в армии США на территории Ирака где-то в 2003 году. Это были примитивные голосовые гаджеты, на которые записаны тематические наборы стандартных команд и фраз с голосовым переводом на арабский для самого простого общения с местным населением, полицией и военными. Эти разговорные наборы были сделаны по типу разговорников, имеющихся в книжечках-путеводителях для туристов, которые и сейчас можно прибрести перед путешествием в любые страны. Кстати!! Именно путеводительские разговорники с их простыми, но необходимыми путешественнику стандартными фразовыми парами "фраза-перевод", распределёнными по темам, чтобы легко было найти в книжечке, и подсказали мне то направление, в котором, на мой взгляд, следует организовывать и развивать системы именно разговорного машинного перевода! Так вот... Наша армия всё больше втягивается в международные операции по подавлению терроризма, где-то наши военные выполняют миротворческие функции, поэтому им совершенно необходимы возможности легко общаться с местными администрациями и населением. Посему я считаю, что данный метод будет наиболее подходящ для них, ибо быстр и лёгок в освоении, а также отлично поладит с той служебной и бытовой лексикой, которой приучены пользоваться военные. А приучают военных к такой лексике, краткой, ёмкой, передающей самую суть сообщений, прежде всего требования устава, пример языка, которым он написан. Вот я и считаю, что при разработке системы контекстно-тематического перевода, особенно на самых первых этапах, следует создать речевой функционал, похожий на армейский устав, который бы содержал чёткие требования и примеры по выработке стандартных фраз, закладываемых в глоссарии памяти системы. Теперь о технических преимуществах контекстно-тематического перевода... Прежде всего это резкое упрощение программного обеспечения, вместо сложнейших программ статистического анализа, поиска, сравнения на первый план выходят несложные программы простого сравнительного поиска-перебора в базах данных. А это даст, на мой взгляд, не только новое качество перевода, но и огромную экономию вычислительных мощностей вместе с экономией электроэнергии. Ведь по сведениям директора Курчатовского института М. Ковальчука; один простой голосовой запрос со смартфона "жрёт" энергии столько, что можно литр воды вскипятить, а треть всего электричества в США уходит на работу дата-центров одного только Гугла!!

Из аналитических программ на первый план выйдут программы морфологического и синтаксического анализа для помощи персоналу источников надёжной информации, чтобы оперативно согласовывать все эти спряжения, времена, падежи, знаки препинания и т. д. А эти программы тоже не Бог весть какие тяжкие. Предвижу, что по мере развития систем контекстно-тематического перевода, найдут себе применение и другие виды программ, которые сейчас уже разработаны и действуют в машинном переводе, но думаю, что они будут приспособлены на несколько других принципах, начнут работать эффективнее, точнее, экономнее используя вычислительные мощности систем машинного перевода.

P.S. Хочу добавить, что в рамках информации, которую полагается давать в патентной документации, просто невозможно изложить всё, что составляет полную суть изобретения и способы его реализации. Поэтому команде, которая приступит к воплощению данного проекта в жизнь, я смогу сообщить немало того, что сможет значительно сэкономить их время, ресурсы и, главное, интеллектуальные усилия...

Михаил Гольдреер

(Пунктуация и стиль автора сохранены)

Like Like Tweet +1

Последние материалы

Новости

Статьи

Блог

Подписка на журнал

Журнал «Арсенал Отечества» продолжает подписку на 2023 год.

По вопросам подписки для юридических лиц или приобретения журнала в розницу обращайтесь к С.А. Бугаеву
bugaev@arsenal-otechestva.ru,
+7 (916) 337-14-17

Электронная подписка - https://www.ivis.ru/

Оформить подписку для физических лиц можно через компанию ООО «Деловая Пресса» тел. (499)704-1305, Email: podpiska@delpress.ru,
сайт: https://delpress.ru/information-for-subscribers.html и ООО « Урал-Пресс Округ » http://www.ural-press.ru/catalog/

Стоимость годовой подписки — 15 000 руб.