О тонкостях литературного английского. В известном произведении The Hitchhiker’s Guide to the Galaxy (“Путеводитель хичхайкера по Галактике”/”Автостопом по Галактике”) Дуглас Адамс, описывая в одной из глав свершения смелых космических первопроходцев, использует следующую фразу (выделена пожирнением):

And all dared to brave unknown terrors, to do mighty deeds, to boldly split infinitives that no man had split before – and thus was the Empire forged.

Неплохой образец английского литературного юмора. Проблема, как обычно, в том, что перевести невозможно. Да, тут, на первый взгляд, представлены лишь самые доступные языковые конструкции и нет “сложных слов”. Однако перевести эту фразу на русский, даже с близким сохранением смысла, не получится. Объяснить – можно. Я попробую сделать это ниже. (Занятно, что даже и при чтении на языке оригинала нужны дополнительные данные для построения контекста, раскрывающего смысл.)

Причин этому две, и обе – чисто языковые: во-первых, во фразе заложена юмористическая аллюзия на литературный элемент поп-культуры, отсутствующий в русском языковом пространстве (см. ниже); во-вторых, фраза специально содержит спорную грамматическую конструкцию, которая возможна только в английском языке, и при этом прямо отсылает к самому предмету спора, возникающего вокруг этой грамматической конструкции. В общем, закручено и накручено.

Дословный перевод выделенного фрагмента, но с учётом общего контекста в оригинале: “смело разделять инфинитивы, которые никто не разделял прежде” – но эта фраза на русском выглядит странной и пустой. Так и должно быть, а детали придётся разбирать отдельно.

Прежде всего – “to boldly split”. Это явление, которое в английском языкознании называется split infinitive – “расщеплённый” инфинитив (можно обозначать и другими русскоязычными терминами, но здесь будет “расщеплённый”). Инфинитив – infinitive – это неопределённая форма глагола: “знать”, “читать”, “писать”. В английском языке инфинитив записывается (но не образуется, заметьте) при помощи to – примеры: to know, to write, to read. Расщепление – это практика внедрения между to и “глаголом инфинитива” одного или нескольких дополнительных слов; обычно, внедряется наречие, как и в нашем случае: to boldly split. И этот грамматический процесс относится к одному из самых спорных моментов. Причём споры, с викторианских времён, идут среди образованных носителей английского. Многие и сейчас считают такое расщепление недопустимым нарушением грамматического строя, речевой ошибкой. Но это, ещё раз, мнение спорное.

To boldly split – нетрудно перевести как “смело (или отважно) разделять”. Проблема в слове boldly. Строгие варианты такие: “boldly to split” или “to split boldly”. Но ни один, ни другой – не выглядят смешно. Прежде всего потому, что сама эта фраза – прямая отсылка к оригинальному сериалу Star Trek. Фраза-заставка к эпизодам этого классического сериала известна как “Where no man has gone before”, и используется постоянно. Этим словам, в оригинальном тексте вступления, предшествует не менее знаменитое (но уже в узких кругах) “To boldly go”.

Расщепление полностью, в версии Star Trek, будет таким: “To boldly go where no man has gone before!” – “Смело идти туда, где не ступала нога человека!”. Заметили тот самый расщеплённый инфинитив? To boldly go. Это и есть предмет аллюзии: грамматически спорная конструкция о том же boldly, расщепляющем инфинитив (многие литераторы и филологи, – особенно, в 60-х годах 20 века, – скажут, что это не “спорная”, а точно грамматически неверная конструкция).

“Путеводитель” – комическая космическая повесть. Star Trek – космический сериал, с понятной каждому английскому грамматическому пуристу речевой ошибкой в тексте вступления, зачитываемого в начале каждой серии. Думаю, теперь первый юмористический момент, – про “расщепление инфнитивов” в Star Trek, – понятен. Передать его на русском не получится, ввиду отсутствия соответствующего культурного феномена – вступления к сериям Star Trek 60-х годов.

Сама же идея о недопустимости “расщепления инфинитива” в английском, похоже, идёт из попытки насаждения языковых реалий из латыни – это было довольно популярным действием среди пуристов в викторианский период (вторая половина 19 века, в основном). Но, в латыни, понятно, расщеплять инфинитив невозможно (как и в русском) – просто потому, что в латыни для этого нет подходящего “to” (его и в английском, на самом деле, нет, но это другая история). В начале 21 века расщепление инфинитива в английском начали, под давлением языковых реалий, официально признавать допустимым.

В оксфордском словаре Фаулера (H. W. Fowler, A Dictionary of Modern English Usage, изд. 1965) есть замечательный пример фразы, в которой попытка избежать расщепления инфинитива приводит к плачевным последствиям:

The greatest difficulty about assessing the economic achievements of the Soviet Union is that its spokesmen try absurdly to exaggerate them; in consequence the visitor may tend badly to underrate them.

То есть, экономические достижения Советского Союза – “его представители абсурдно пытаются преувеличивать”, а посещающие СССР, в результате, “сильно/грубо недооценивают их”. Здесь наречия (“абсурдно”, “сильно” или “грубо”) оказываются прицеплены не к тем глаголам, что звучит несколько странно. И странность звучания помогает понять второй аспект юмора “расщепляющихся инфинитивов” в первоначальной цитате из The Hitchhiker’s Guide to the Galaxy, который в русском переводе тоже передать невозможно, по причине отсутствия в русских инфинитивах расщепимости.

(На День Космонавтики эту записку выпустить не успел – что-то завозился, – но, думаю, ещё не поздно: да и не откладывать же на следующий год, верно? С прошедшим Днём Космонавтики!)



Комментировать »

Решил посмотреть, как Google переиндексирует ссылки с dxdt.ru на dxdt.blog – попутно наткнулся на ИИ-выдачу, в которой попалась забавная интерпретация названия одной из тем сайта.

На Dxdt есть категория “О рениксе”, к которой я отношу заметки, рассказывающие о проявлениях разной чепухи – что, в общем, не удивительно: слово “реникса” – это из пьесы Чехова, где оно возникает в анекдоте про неверное прочтение слова “чепуха”, записанного курсивом. И действительно: кириллическая строчная “ч”, рукописным курсивом, выглядит как курсивная же латинская “r”. Unicode, к сожалению, воспроизвести не позволяет. Хоть соответствующий символ там и имеется – Mathematical Script Small R, – но вот в шрифтах он, обычно, выглядит как “правая” “рукописная” r: 𝓇.

В общем, Unicode – юникодом, но исходное русское “чепуха” в анекдоте из пьесы Чехова выглядит как “renyxa”, то есть, “реникса”, если читать на латыни, хоть такого латинского слова и нет. Ну, как нет – тут-то система Google LLM для поиска (разновидность Gemini?) слово “подходящее” нашла, написала, что “О рениксе” происходит от латинского renixus, которое есть вариант renisus – “сопротивляющийся”. Мол, тут игра слов: с одной стороны – “чепуха”, а с другой – реальное латинское слово. Так-то.



Комментировать »

У меня есть очень старый аккаунт Google Apps “для домена” – ещё со времён бета-тестирования, бесплатный (каким-то чудом). Вот я настраивал там TOTP, поскольку Google перестал пускать без “второго фактора” (очередной маркетинговый трюк), и обнаружил, что в панели администратора теперь есть специальный раздел “Углеродный след” (Carbon Footprint for Google Workspace). Кто бы мог подумать.



Комментировать »

Надпись под картинкой X-76 SPRINT на сайте DARPA: “Artist’s concept for the SPRINT X-76, a proof-of-concept technology demonstrator that aims to demonstrate technologies and concepts needed for runway-independent, high-speed flight”. Вчитайтесь в повторы слов: концепция (concept) концепции о технологическом демонстраторе, нацеленном на демонстрацию технологий и концепций… и так далее. Видимо, чтобы слов хватило на нужную длину строки. Как говорится, ИИ-LLM, несомненно, идёт на смену копирайтерам, в том числе, и силами самих копирайтеров.

(Речь в пресс-релизе о некоторой “концепции о концепции” некоторого реактивного конвертоплана с “гибридными” движителями: такой продвинутый вариант V-22 Osprey, как бы из компьютерной игры, только ещё сложнее, потому что не только поворачиваются мотогондолы и меняется конфигурация крыла, но ещё и лопасти складываются в полёте. С крейсерской скоростью в 400 узлов и не требует оборудованной полосы для разбега. Впечатляет. Если верить картинкам, конечно. Всё с планами на 2028 год и далее. То есть, пока что ничего интересного, но выглядит так, как если бы без LLM не обошлось.)

X-76 Picture



Комментировать »

Ещё в копилку реального использования LLM, но, в данном случае, “картиночных”.

Это ChatGPT современной версии (которая доступна через веб-интерфейс на бесплатном аккаунте, видимо, какая-то 5.x). Попробовал старинный запрос – нарисовать настенные часы. Но в этот раз – с 11-часовым циферблатом (такие картинки полезны, когда нужно объяснить арифметику остатков, например, сравнивая составное 12 и простое 11). Пишем достаточно подробный, на мой взгляд, промпт на русском (специально):

“Нарисуй настенные часы с 11-часовым циферблатом, которые показывают без двадцати десять”.

Screenshot with text prompt for LLM

Казалось бы, прошло уже несколько лет “улучшений” и хайп только набирает обороты, но, к сожалению, результат, как обычно, не слишком-то полезный – см. ниже.

Clock image from ChatGPT

(Здесь двенадцать часовых отметок, но две обозначены символом “11”, да и стрелки показывают не 9:40.)



Комментарии (5) »

Известная шутка гласит, что категорий людей – 10: одни уже знают двоичную систему счисления, а другие – ещё нет. Занятно, что 102 обозначает простое число – два. Это большая редкость в системах счисления, которые рутинно используются в ИТ. Понятно, что ни в восьмеричной, ни в десятичной, ни в шестнадцатеричной, 10 (как запись) не может обозначать простое число (как и всякая запись, заканчивающаяся на 0). А в двоичной – пожалуйста.

Естественно, это возможно только потому, что основание двоичной системы – простое число два. Если взять любое другое простое основание, то 10 тоже будет простым, потому что это и есть запись основания: три – по основанию 3, пять – по основанию 5, семь – 7, и так далее. Но наиболее привычны, кроме десятичной (десятеричной), это двоичная, восьмеричная и шестнадцатеричная.

Возьмём запись 11. В двоичной – это простое число три (112 = 2 + 1 = 3). В восьмеричной – девять, составное, но квадрат простого: 3^2. Та же запись 11 означает одиннадцать в десятичной, простое. Шестнадцатеричное 11 – это семнадцать, тоже простое.

Использование в этом ряду двоичной системы ограничивает доступный набор цифр: только 0 и 1. Но можно взять, например, 101 – трёхзначное:
это пять в двоичной (простое);
шестьдесят пять – в восьмеричной, составное: пять на тринадцать;
сто один – в десятичной, простое;
двести пятьдесят семь – в шестнадцатеричной, простое.

Обратите внимание, что запись чисел словами – это инвариантная, относительно системы счисления, запись.

1112 = семь (простое);
1118 = семьдесят пять (составное);
11110 = сто одиннадцать (простое);
11116 = двести семьдесят три (составное: 3*7*D).

Не забывая о том, что все простые числа, кроме числа два и числа три, имеют вид 6*n +/- 1, на трёх цифрах можно и остановиться. Тем более, что шестеричная система счисления не является распространённой.



Комментировать »

Лексический контекст может трансформировать семантику одного и того же слова занятным образом. Особенно, в русском языке. Особенно, если графически – это одно и то же слово. Есть хорошо известный, но всё равно интересный, пример – он про “косых косых”.

“Шёл с косой косой косой”.

Что здесь написано? Например, это сказочный заяц (косой или Косой), который идёт, неся на плече ручной инструмент для покоса травы, но этот инструмент довольно кривой: “коса у зайца на плече косая”.

Теперь допишем ещё одно слово “косой”.

“Шёл с косой косой косой косой”.

Что получилось? Теперь заяц-косой ещё и реально косой – то есть, у него большие проблемы с глазами.

“Шёл с косой косой косой косой косой”.

Заяц, который несёт на плече косую косу, идёт вдоль песчаной косы: спустившись с холма, вышел заяц к реке, да закинул косу на плечо, шагая привычной дорогой – вдоль песчаной косы. Что ж, пока заяц идёт, продолжаем приписывать слово “косой”.

“Шёл с косой косой косой косой косой косой”.

Предположим, что и песчаная коса – тоже косая, на то она и коса. Продолжать всё труднее. Получится ли сделать следующий шаг?

“Шёл с косой косой косой косой косой косой косой”.

Семь косых. Ну, казалось бы, теперь-то грамматические варианты закончились, а предложение не “парсится” – так? Нет, не закончились. Дело в том, что косой заяц был нетрезв, поэтому он ещё раз косой, но теперь – в смысле общего состояния сознания: мысли зайца запутаны, но кажутся ему строгими и прямыми, не то что косая коса, которую несёт он на плече. Интересно, что “косой”, в значении не трезвый, можно в этом предложении переставлять на разные экземпляры графического представления слова “косой”.

“Шёл с косой косой косой косой косой косой косой косой”.

Восемь косых – и вот тут уже не обойтись без дефисов, потому что иначе структура не вписывается ни в какой грамматический вариант. Зато с дефисами – вписывается: “Шёл с косой-косой косой косой косой-косой косой косой”. То есть, коса у зайца теперь очень сильно косая: косая-косая. Сам заяц теперь настолько нетрезв, что таких нетрезвых зайцев поди ещё найди: косой-косой. Но с дефисами эффект не такой интересный, поэтому останавливаемся на восьмом уровне.

(Заметьте, кстати, что эффект похож на эмбеддинг с навесом из другой записки.)



Комментарии (1) »

Плакат про лыжи и пятерых лыжников, США, 1957 год: “Join National Ski Association”.

Join NSA, poster

Источник: LoC.
(АНБ создано в 1952 году.)



Комментарии (2) »

На сайте Gramota.ru опубликовали “слова 2025 года”, что бы это ни значило, и слово-победитель в области “Информационных технологий” – “вайбкодинг”.

Хайп. Тут показателен не столько сам выбор слова, сколько его неловкое определение, которое там приводят: “подход в программировании, при котором человек ставит задачу на естественном языке, а искусственный интеллект пишет код”.

“Кодинг”, как явление, к программированию вообще имеет отношение крайне отдалённое. Я бы сказал, что “кодинг” – противопоставляется “программированию”. Ну а уж “вайбкодинг”, это, как бы, вообще не про программирование, и тем более, не “подход в программировании”. “Вайбкодинг” – это способ задавать контекст выдачи кодогенератора, без формирования представления о самой задаче, для решения которой пишется код – откуда, собственно, “вайб‐”: это “промптинг” по наитию, а не “подход в программировании”.

(Ссылка выше – ведёт на страницу без разметки стилей, но так сделано на сайте; возможно, тоже “вайбкодинг”; как сослаться на нормальную страницу за 2025 год – непонятно.)



Комментировать »

В Quanta Magazine статья, рассуждающая о том, не закончилась ли “физика частиц” с открытием бозона Хиггса при помощи LHC. Ну, там, в заголовке, как бы, сразу заложены варианты, однако основной вывод сводится к тому, что, мол, – да, закончилась.

Тут особенно содержательно что-то сказать сложно, работы физиков стали непонятными. Однако со стороны, – при всём уважении, – действительно, давно уже выглядит как непрекращающиеся попытки уточнения десятичных знаков в записи числа Пи по результатам мысленных экспериментов. Но в статье есть более интересные моменты, а именно – занятные отсылки к ИИ/LLM. Например, цитата про современный LHC:

In the last couple of years, data handling at the collider has improved with the use of AI. Pattern recognizers can sort through the outgoing debris of proton collisions and classify collision events more accurately than human-made algorithms can.
(Последние пару лет обработка данных коллайдера улучшилась благодаря использованию ИИ. “Обнаружители” паттернов способны просеивать разбегающиеся осколки от столкновений протонов и классифицировать события более точно, чем сделанные (разработанные) человеком алгоритмы.)

От хайпа нигде не скрыться: “более точно, чем сделанные человеком алгоритмы” – можно подумать, что алгоритмы этих “обнаружителей/распознавателей” (recognizers) – созданы не людьми. Хотя… есть же прекрасная литературная теория, что все эти попытки постройки всё более мощных ускорителей частиц – это скрытое воздействие неких внешних сил, огромный космический флот которых уже стоит в варпе рядом с Землей, но не может осуществить финальное вторжение, потому что для прорыва в реальное пространство из варпа нужен портал. Вот этот портал и должны построить под прикрытием создания ускорителя, а инструкции передаются в виде малых межпространственных ментальных воздействий на неокрепшие умы (как говорится: “An open mind is like a fortress with its gates unbarred and unguarded”, или, в дословном переводе: “открытый разум – подобен крепости, ворота которой не заперты и не охраняются”). Так что, да, может, это и не люди придумали алгоритмы ИИ для LHC. Шутка. А в статье, наверное, серьёзно так написано.

Есть и ещё одна занятная цитата – прогноз, который даёт Джаред Каплан (Jared Kaplan) из Anthropic (это, как раз, одна из ведущих компаний в области продвижения ИИ/LLM):

I would give like a 50% chance that in two or three years, theoretical physicists will mostly be replaced with AI. Brilliant people like Nima Arkani-Hamed or Ed Witten, AI will be generating papers that are as good as their papers pretty autonomously.
(Я бы дал шанс процентов 50, что через два или три года физики-теоретики будут в основном заменены ИИ. Такие выдающиеся люди, Нима Аркани-Хамед или Эд Виттен, – ИИ будет генерировать статьи, столь же хорошие, как и их статьи, совершенно автономно.)

“ИИ будет генерировать (generate) статьи” – кто бы, как говорится, сомневался. Не совсем понятно, насколько это лестная оценка качества статей, но да ладно. Шансы, впрочем, не так велики – 50% всего-то. Но через два года. Посмотрим.



Комментировать »

Попробовал использовать ChatGPT в качестве инструмента для перевода технического текста с русского на английский, чтобы понять, насколько эта система годится для подобных задач. Может, – хотя бы, – пойдёт на роль генератора качественного “подстрочника”. ChatGPT 5 тут же “перевело” слово “совпадают” как совпides – да, “тяни-толкай” из двух слов разных языков. Это, очевидно, “склейка” из “совпадает” и coincides. Довольно забавно. ChatGPT утверждает, что это опечатка. В принципе, бывает, кто бы спорил.

К сожалению, первый вариант перевода оказался просто переписанным на английский русским текстом – то есть, это, как бы, более или менее корректный перевод (за вычетом совпides и пр.), но он читается “на русском”, а не на английском: наследованы все верхнеуровневые конструкции – это будет сильно коробить носителей английского, например. Впрочем, в качестве подстрочника – очень даже неплохо, тем более, что никто не просил литературный перевод. А до литературного, конечно, получилось космически далеко. Но ведь утверждают, что при помощи LLM переводят литературные произведения. Чтобы представить, что там получается, указал в своём ответе на то, что тут остался русский текст, но “английскими словами”, попросил переписать на английском английском. Второй вариант – оказался заметно лучше, но, к сожалению, всё ещё далёк от ожиданий “сверхинтеллекта”.

Вот хороший пример: предложение (в контексте большего текста) “Хуже того, этот кто-то может заменить пакеты или изменить передаваемые в них данные” – ChatGPT 5 переводит так: “Worse still, an attacker can modify or replace those packets”. Оставим за скобками “an attacker”, которого тут нет в исходном тексте – это не страшно. Но здесь сохранено “worse still”, – калька с русского “хуже того”. На английском – “worse still” читается как весьма драматический заход. Куда сильнее, чем “хуже того”, даже посильнее, чем “хуже всего”. Могло бы быть что-то вроде “in fact” или “moreover”. Самое забавное, что ChatGPT об этом, как бы, “знает”. Вот эти два варианта, – “in fact”, “moreover” – предложило само ChatGPT, когда я указал, что “worse still” – плохой “loan translation” (“прямое заимствование”, калька). То есть, система “знает” верные слова, но не может их выставить. Всё из-за того, что это синонимайзер, к сожалению. И “совпides” тому примером.

Но как подстрочник – вполне неплохо, факт. Продолжаем наблюдать.



Комментарии (1) »