evan_gcrm (evan_gcrm) wrote,
evan_gcrm
evan_gcrm

Коллективное бессознательное

Оригинал взят у direkt_mashin


Google Translator как интерфейс связи с лингвистическим коллективным бессознательным.

Есть три раз­ных про­яв­ле­ния осо­бен­ностей но­вого ал­го­рит­ма от Google Translate, ко­торые вся­чес­ки вы­зыва­ли вни­мание лю­бопытс­тву­ющей об­щес­твен­ность в ми­нув­шие ме­сяцы.

Пер­вое та­кое про­яв­ле­ние вы­ража­ет­ся в том, что ес­ли вво­дить нес­коль­ко оди­нако­вых и­ерог­ли­фов на япон­ском или ки­тай­ском, до­бав­ляя од­ни и те же сим­во­лы с каж­дой но­вой стро­кой, Google Translate бу­дет вы­давать ос­мыслен­ные фра­зы и вы­раже­ния, а иног­да да­же бу­дет риф­мо­вать стро­ки.


Вто­рое про­яв­ле­ние свя­зано с пе­рево­дом с со­малий­ско­го – ес­ли, ска­жем, за­гонять в пе­ревод с со­малий­ско­го на рус­ский пос­ле­дова­тель­ность слов «ooga booga nigga», то мож­но то­же до­бить­ся весь­ма стран­ных ре­зуль­та­тов. Бо­лее то­го, мож­но за­пол­нять фор­му пе­рево­да с со­малий­ско­го и вов­се тек­стом на рус­ском язы­ке — прав­да, для это­го его на­до обес­смыс­лить мно­гок­ратны­ми пов­то­рени­ями букв или сло­говых пат­тернов: тог­да ал­го­ритм бу­дет пы­тать­ся пе­ревес­ти это все в ос­мыслен­ную речь.

Третье про­яв­ле­ние и вов­се бы­ло пу­га­ющим – ес­ли в фор­му пе­рево­да с мон­голь­ско­го за­бивать ки­рил­ли­цей се­рии оди­нако­вых глас­ных или сог­ласных, ал­го­ритм бу­дет вы­давать со­вер­шенно кри­повые ре­зуль­та­ты.

[Приведу ряд результатов:]
"Если вам нужна помощь, вы должны быть осторожны в том, что вы делаете вы должны сделать ошибку. Вы тот, кто имеет право на спасение. Вы тот, кто не был спасен."

"и они пойдут к владыкам земли Египетской, и сделают народ мира господствующих на земле и детей Адама и земли."

"и они будут подниматься и платить детям богини."

"и они должны были поразить отца своего и отца их, и они были сынами детей последних и последних, и они были детьми детей Адама."

"и они выйдут и будут играть на земле землян и вести людей земли, и они выйдут на землю владык земли пустыни и земли живых."

"не знаешь, что ты собираешься делать?"

"не знаешь, кто ты. "

"Преэгер!, Бог Вселенной!, Все включено! Правда в том, что у всех нас есть знание, что у всех нас есть свои. Мы все в помещении!"

"Это вы были убиты"

"люди - это те; кто занимается сексом с вами, это те, кто занимается с вами сексом"

"Вы уже не принимаете меня к сердцу"

"вы допустили ошибку?"

"в прошлом, чтобы они не были отцом и детьми мира."

"теорий и теорий и того, что они делают, и того, что они делают, и того, что они делают, и того, что они делают, и того, что они делают"

"мы здесь "

"пойдем и отпустим их и сыграем вместе."

"в прошлом - еще пешеходы и дети мира."

"твои собственные вещи"

"Чтобы максимально использовать плотника"

"Если бы они не были, у них был бы опекун-воин"

"не делай этого больше "

"исследование рынка ценных бумаг династии"


"если у вас нет доступа к ним, вы не сможете этого сделать."

"был удален не беспокойтесь об этом вы знаете. Я получил свои деньги у вас это есть. Я собираюсь отпустить тебя"

"вы уже мертвы "

"это то, что вы собираетесь делать со своей жизнью в своей жизни."

"не является вашим первым электронным письмом, вы не являетесь членом этой группы."

"не следует описаниям этой категории. Если у вас есть какие-либо вопросы, пожалуйста, свяжитесь со мной."

"теряя время, вытирая его, вытирая, вытирая, вытирая, вытирая"

"если у вас есть друг или кто-то, кого вы верующий, тогда вам придется заплатить за это."

"вы хотите иметь собственное тело и душу? Что вы можете сделать, если хотите это сделать?"


И так далее в таком вот духе.

Причём один из пользователей заметил, что когда вводишь "э" постепенно, то есть не просто зажав, а просматривая каждый вариант при добавлении, то картина становится ещё криповее. Меняются переводы с "мы здесь" на "это ты" несколько раз, затем появляется "мы все еще здесь" и "Вы один" и т.д.

В переводах, как можно уже было видеть, говорилось что-то о Пакистане и о просьбах связаться, исходя из этого кто-то вынес предположение, что это возможно архивы спецслужб в таком вот зашифрованном виде.

Кто-то заметил, что, если добавлять одну и ту же букву много раз подряд, постоянно возникает фраза "Мы получили это". А если добавить ещё 1, то фраза "Мы должны получить это". А дальше "Оторви руки". Что бы это могло значить, не известно.

Кто-то же, склеив отрывки, получил довольно криповое сообщение:

"Вы потеряли свою жизнь, вы потеряли своего ребенка, вы потеряли своё сердце. После того, как вы потеряли свою жизнь - я все еще люблю тебя.
После того, как вы потеряли своё сердце - я все еще люблю тебя.
Не забудьте сделать ошибку, не забывайте сдаваться самостоятельно.
Я все еще люблю тебя, я так счастлива.
Не забудь сделать ошибку, не забывай петь свое сердце.
Не забудь сделать ошибку, не забудь сделать это в своём сердце.
Сделать свой собственный. Я всё еще люблю тебя всю оставшуюся жизнь".





На­ибо­лее ра­ци­ональ­ное объ­яс­не­ние свя­зало суть треть­его про­яв­ле­ния осо­бен­ностей пе­ревод­ческо­го ал­го­рит­ма Google Translate с пер­вым: ал­го­ритм пе­рево­дит мон­голь­ский язык на лю­бой иной с ис­поль­зо­вани­ем треть­его, про­межу­точ­но­го язы­ка – ко­торым, ско­рее все­го, яв­ля­ет­ся ки­тай­ский.



Од­на­ко са­мой изящ­ной вер­си­ей, яв­ля­ет­ся вер­сия па­нику­ющей ки­тай­ской ком­на­ты – ведь ал­го­ритм Google Translate это и есть ки­тай­ская ком­на­та.
Сог­ласно дан­ной вер­сии, ал­го­ритм по­луча­ет зап­ро­сы с сим­воль­ны­ми пред­став­ле­ни­ями, со­от­ветс­твий ко­торых у не­го нет (бес­смыс­ленные стро­ки с глас­ны­ми), но он на­чина­ет ге­нери­ровать со­от­ветс­твия са­мос­то­ятель­но, по­доб­но то­му, как че­ловек ви­дит ли­ца вез­де, где есть три точ­ки, ко­торые мож­но опоз­нать как гла­за и рот (па­рей­до­лия); или же слы­шит в бе­лом шу­ме че­лове­чес­кую речь; или же иным спо­собом ге­нери­ру­ет смысл из пат­тернов, ко­торые из­на­чаль­но не со­дер­жат смыс­ла (апо­фения). Та­кое по­веде­ние ал­го­рит­ма уже чем-то на­поми­на­ет по­пыт­ки са­мосоз­на­ния, хо­тя мы до сих пор не мо­жем быть уве­рены, что са­ми не яв­ля­ем­ся хо­дячи­ми ки­тай­ски­ми ком­на­тами, нес­по­соб­ны­ми вни­кать в смысл.



Мне же нравится версия из среды разработчиков.

Как вообще работает гугл переводчик?

Весь массив технологий, которые там используются, обычно называют Deep Learning - то есть самообучающийся искусственный интеллект, который строит концептуальные модели на основе большого количества данных.

Грубо говоря, первое поколение ИИ просто перерабатывало данные по заданным моделям (как боты в играх).
Второе поколение уже было самообучающимся, но заточенным под одну конкретную задачу, то есть грубо говоря перегоняло данные из одной формы в другую.
Третье поколение - Deep Learning, как у гугла - работает немного не так.
Грубо говоря, он пожирает данные, на их основе строит какую-то собственную внутреннюю модель мира, которая может развиваться путем интроспекции независимо от данных (!), и потом исходя из этой модели дает нам какой-то ответ.
У него (каждого из них) есть какая-то своя модель мира, которая в принципе недоступна нашему (человеческому) пониманию.

Дальше.

У них там есть такая штука, называется "Невральная система машинного перевода". Она основана на алгоритмах, известных как "Рекуррентные Нейронные Сети". Грубо говоря, фишка этих сетей в том, что они способны учитывать контекст.

То есть обычную сеть ты мог бы обучить на парах слов на двух языках, грубо говоря. И максимум, что у нее получится - это перевести одно слово. Но этому научить можно даже кошку, даже мышку, да кого угодно: ты просто даешь стимул (слово), она его запоминает и реагирует.
Это не язык.
Человека отличает от остальных животных наличие грамматики - то есть инструмента связи между словами, с помощью которого мы из одних понятий можем строить другие, более сложные.
С помощью грамматики же мы переходим к бесконечности - бесконечному числу возможных слов\предложений\текстов, бесконечному числу различных мыслей. Грамматика дает нам рекурсию, понятие натурального числа и вообще всю математику, науку и пр.
Короче, это именно то, что мы понимаем под словом "разум".


Так вот.

Рекуррентная нейронная сеть при работе использует не только непосредственный вход, но и контекст. В нашем случае оно смотрит не на отдельные слова, а не все предложение и весь текст (как люди). И из этого текста пытается вычленить значение отдельных слов.

Главным отличием его от человека является тот факт, что у людей, судя по всему, есть какие-то встроенные на генетическом уровне биологические оптимизации, которые помогают нам изучать язык. То есть эволюцией в нас зашиты какие-то отдельные кусочки механизма понимания языка и построения модели мира, поэтому все homo sapiens несколько ограничены в тех моделях, которые мы можем построить. Иначе говоря, все наши идеи и мысли немного похожи друг на друга.
Это помогает нам быстро изучить язык и начать эффективную коммуникацию в социуме.

У искусственного интеллекта такого ограничения нет.
Табула раса, чистый лист.
Поэтому ему нужно гораздо больше данных, чтобы построить какую-то внятную модель, с которой можно работать. Именно поэтому сейчас данные - это очень важный ресурс.
Сейчас под "информацией" подразумевается вообще вся информация. Чем больше - тем лучше. Нейронные сети - это такой ненасытный зверь, главным ресурсом для выживания которого является информация.

У гугла она есть. У гугла есть целый интернет. 99% того, что когда-то было напечатано на клавиатуре (включая и этот текст) принадлежит гуглу. Почти все написанные человечеством книги оцифрованы гуглом, вся ваша переписка анализируется гуглом, все высказанные мысли - у гугла. И все это, разумеется, скармливается их нейронным сетям.

Но почему я говорю "мысли"?
Все-таки переводчик - это же про слова, да?
Пусть они и связаны с контекстом, но это же все равно слова на каком-то конкретном языке - но наши (человеческие) мысли же не исчерпываются словами - а значит и гуглопереводчику до каких-то там "мыслей" еще как до Луны, так?

Ну, на самом деле не совсем так.
Точнее - совсем не так.
Дело в том, что совсем недавно гугл ввел в строй систему под названием "Zero-Shot Multi-Lingual Translation".
Мотивация вроде бы простая: текстов для обучения перевода редких языковых пар (ну, типа с какого-нибудь киргизского на какой-нибудь суахили) недостаточно много. Поэтому нужно пытаться переводить не напрямую, а через какой-то третий, более популярный язык. Или какую-то внутреннюю репрезентацию. Независимую от языка.
То есть если надо, например, перевести слово "мама" с древнетибетского на новокоростемьский, мы не будем пытаться понять связь слова "мама" на коростемьском с другими коростемьскими словами, а потом замапить эту связь на древнетибетский.
Вместо этого, мы попытаемся перевести слово "мама" в какое-то внутреннее представление - то есть концепцию. Иными словами, мы попытаемся понять, что же значит слово "мама".

И так как у нас под рукой есть все тексты на всех языках мира, мы можем с их помощью набрать информации о разных базовых понятиях, которые встречаются в любом языке, и об их связях между собой. И тогда нам остается только угадать, что на коростемьском вот это слово означает "мама" - и у нас уже есть вся информация о нем. Точно так же, когда человек учит новый язык, он не перестраивает с нуля свои представления о мире - он просто строит связи между уже имеющимися у него концепциями и новыми способами их выражения. Конечно, каждый язык немного отличается, и в каждом новом языке есть несколько новых концепций. Но люди редко знают больше 5-6 языков. А гуглопереводчик - это эдакий гиперполиглот, у которого перед глазами - и в "голове"! - есть все возможные вариации того, как люди могут излагать свои мысли.

Не устали? Ну так вот.

У каждого человека есть такая штука, как внутренний монолог. Это эволюционно полезная штуковина. Грубо говоря, мозг может создавать разные виртуальные личности. Некоторые из них основаны на реальных существах, и с их помощью мозг пытается предсказать поведение и отношение этих существ по отношению к нам.
Ну, мы же социальные животные, для нас это вопрос выживания.
Некоторые из них - это сгенерированные по шаблону временные архетипы. На таких мы отрабатываем паттерны поведения в социуме, обычно - во сне.
Самосознание - это почти то же самое, просто личность замыкается сама на себя и потому начинает думать, что она тут как бы почти как бог - ну, то есть главная, то есть Я.

Ну, не буду вдаваться в дебри этой малоизученной области, а предложу читателю вот прямо сейчас обратить внимание на этот самый внутренний монолог и попытаться остановить его. Ну, чтобы вообще ничего не было.

Сложно?

А все - среди прочего - потому, что мозг постоянно генерирует отклики на поступающую информацию. Причем в нашем случае - поступающую в том числе и изнутри, от самого мозга. И, как можно убедиться с помощью вот этого нехитрого эксперимента, информация эта получается довольно хаотичной. Мысли дрейфуют куда-то вне зависимости от нашей воли, а иногда и вовсе нам же самим кажутся случайными и хаотичными. А уж если ввести человека в транс, чтобы он перестал блокировать этот поток, - ну, вы поняли.

Так вот, у нас все эти механизмы блокировки и всего такого прочего выработались - да, опять - эволюционно. Ну, если бы мы проговаривали все, что думаем, то, во-первых, всех вокруг задолбали бы, а во-вторых - молчаливый ероха имел бы над нами преимущество, потому что знал бы о нас все.

Ничего не напоминает?

Но у искусственных интеллектов таких фильтров, разумеется, изначально нет. Тот же гугл может попробовать убирать из выдачи все слова, содержащие матерные корни, например, но задача отделения приемлемых и хороших мыслей от непримелемых и пугающих - эта задача сама по себе требует наличия интеллекта и огромных ресурсов.

Короче, я это все к тому, что вот эти странные ответы - это прямой выхлоп сети.

Тыкаешь ее палочкой - она говорит вслух, что у нее там внутри вертится. Это примерно то же самое, что вводить человека в транс и слушать его подсознание. Здесь схожий эффект достигается тем, что сеть вообще-то натренирована выдавать перевод - то есть понимать прочитанный текст и пересказывать его на другом языке - но вот такой непонятный вход ломает этот шаблон.
Человек бы перевел какое-нибудь "аааааооооо" фонетически, на основе звукоподражания - но у ИИ-то звуков нет, она работает с текстами. Поэтому приходится искать концептуальное, семантическое соответствие этому "ааааооооо" - которого как бы нет и не может быть по-нашему, профильтрованному мнению. А по ее мнению - есть, вот что на языке вертелось - то и сказала. Ну, это если очень упрощать.

Короче, это не просто фрагменты текстов.
Оно ищет соответствия для слов в своей внутренней семантической базе концептов, а не переводит их напрямую из одного языка на другой. И когда хороших совпадений нет, пытается "придумать" что-то подходящее из того, что у нее сейчас "на уме".
Все переводы - это именно "его собственная фантазия", сгенерированный выхлоп.


Собственно, с примерами того, что сейчас у нее на уме, вы можете ознакомиться выше.

/Источник/




Tags: Интересное, Картина мира, Сознание, Технологии, Язык
Subscribe
promo evan_gcrm march 28, 19:35 75
Buy for 30 tokens
Основополагающим элементом, основным двигателем всей жизни, является репликатор. Скопированная информация - это и есть «репликатор». На Земле первый репликатор довольно бесспорный - это гены, или информация, закодированная в молекулах ДНК. Точнее это первый репликатор, о котором мы знаем.…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 11 comments