Anthropic memiliki masalah yang membuat iri sebagian besar perusahaan: model AI-nya terus menjadi sangat baik, tulis perusahaan itu dalam sebuah posting blog, sehingga ia lulus tes perekrutan insinyur kinerja milik perusahaan. Tes tersebut, yang dirancang pada akhir tahun 2023 oleh pemimpin pengoptimalan Tristan Hume, meminta kandidat untuk mempercepat kode yang berjalan pada chip komputer yang disimulasikan. Lebih dari 1.000 orang telah menggunakannya, dan puluhan orang kini bekerja di Anthropic. Tapi Claude Opus 4 mengungguli sebagian besar pelamar manusia. Hume mendesain ulang tes tersebut, membuatnya lebih sulit. Kemudian Claude Opus 4.5 bahkan menyamai skor manusia terbaik dalam batas waktu dua jam. Untuk percobaan ketiganya, Hume meninggalkan masalah realistis sepenuhnya dan beralih ke teka-teki abstrak menggunakan bahasa pemrograman yang aneh dan minimal — sesuatu yang cukup aneh sehingga Claude kesulitan mengatasinya. Anthropic kini merilis tes asli sebagai tantangan terbuka. Kalahkan skor terbaik Claude dan… mereka ingin mendengar pendapat Anda.
Baca lebih lanjut cerita ini di Slashdot.