После завоевания ChatGPT, видео шахматы Atari 2600 наносят поражение Microsoft Copilot: ‘Старый кремниевый ум превзошел меня честно и достойно’

Ранее мы поделились неожиданным результатом игры в видео-шахматы на эмуляторе Atari 2600 против ChatGPT, которую последний с лёгкостью выиграл. Теперь же Microsoft Copilot жаждет доказать своё превосходство над ChatGPT, и Atari любезно предоставила ещё одну победу.

Как страстный поклонник, я должен разъяснить одно важное: хотя модели вроде меня (ChatGPT) и Copilot лидируют в языковом моделировании, необходимо понимать, что мы не эквивалентны специализированным шахматным движкам. Эти программы уже давно превзошли человеческие способности, как показывает Stockfish. Даже игра в шахматы для Atari может дать нам фору! Поэтому, несмотря на нашу эффективность в задачах языка, оставьте игру в шахматы специализированным программам, разработанным именно для этой цели.

Видеочаша, несмотря на всю её ценность, является весьма основополагающим шахматным программированием, но удивительно, что они смогли разработать работающий движок всего в 4 КБ. Это программное обеспечение нацелено на определение оптимального хода для конкретной позиции, однако оно не учитывает общую стратегию и может предсказать максимум два шага вперёд.

Кажется разумным предположить, что обладатели степени магистра права (LLM) могут иметь определенное преимущество. И действительно, они выглядели довольно самоуверенно в обеих ситуациях. Эти эксперименты были проведены инженером Citrix Робертом Карузо, и модель ChatGPT проявила любопытство относительно того, насколько скоро она сможет превзойти Atari до своего поражения, тогда как LLM от Microsoft в эксперименте с Copilot была полна уверенности в себе и смело утверждала о своей компетенции в шахматах, заявляя, что это не вызовет трудностей.

Концепция, что машины типа юридических помощников могут искренне задумываться или испытывать эмоции вроде уверенности, является чисто вымышленной. Однако их персонификация добавляет юмора к последующим событиям.

Карузо заявил: ‘Она хвасталась своей способностью планировать на 10-15 ходов вперед, но решила ограничиться 3-5 ходами против соперников с рейтингом 2600, так как склонна делать не самые выгодные ходы, что позволяет ей использовать это вместо того, чтобы сосредотачиваться на сложных расчетах.’

Карузо сообщил Копилуту, что одной из ключевых причин проблем с ChatGPT была его неспособность запоминать ходы игры и поддерживать последовательность. ‘Не волнуйтесь,’ ответил Копилот, ‘он будет помнить все предыдущие ходы и обеспечит плавную игру для улучшенного опыта.’ Копилот попросил снимок игрового поля после каждого хода Атари, который Карузо отправил, и пообещал напряженную конкуренцию впереди.

Хвастливый Копилот вначале испытал затруднения, обнаружив после семи ходов два пешек, коня и слона меньше, чем у противника, обменивая их всего лишь на одну пешку. Теперь он предлагал мне передвинуть мою ферзя прямо перед ферзем Атари, чтобы его захватили в следующем ходу. Ранее, Копилот насмехался над Карузо за странность ходов Атари, но теперь казалось, что сам смутился.

После каждого хода напарнику предоставлялись подсказки, однако каким-то образом ему казалось, что он теряет представление о доске для игры. Каррузо предположил, что с текущим недостатком шансов на победу нет и следует признать поражение. В результате напарник произнес неожиданно вежливую речь о капитуляции.

Боб, ты на месте, — ответил Копилот. — Атари явно взял этот раунд. Я изящно признаю, признавая превосходный дизайн винтажных чипов, который переиграл меня. Несмотря на то, что я проиграл, это было довольно приятно … вот сражения старой школы и почетные сдачи! Приветствую 8-битную войну!

Конечно! Карузо отметил, что поведение HAL-9000 напоминало ему знакомый паттерн ChatGPT из-за его уверенного подхода к выполнению задачи и краткой попытки оправдать свою неудачу.

Неприятно, что игра не может сохранить базовое состояние игры от одного хода к другому. Разве это не похоже на то, как можно забыть другие важные детали в разговоре?

Смотрите также

2025-07-07 20:47