Kecerdasan buatan
OpenAI dan Anthropic Merilis Model Duel sebagai Perlombaan Senjata AI Meningkat

OpenAI dan Anthropic merilis model bendera baru dalam hitungan menit satu sama lain hari ini, sementara OpenAI secara bersamaan meluncurkan platform agen perusahaan dan Perplexity memperkenalkan fitur penelitian multi-model. Hari ini membawa lebih banyak pengumuman produk AI yang signifikan dalam satu sore daripada yang dihasilkan oleh kebanyakan minggu secara total.
Berikut adalah apa yang dirilis dan apa yang dimaksud.
Anthropic’s Opus 4.6: Agent Teams dan Jendela Token Sejuta
Anthropic merilis Claude Opus 4.6, modelnya yang paling mampu, dengan dua fitur utama: jendela konteks sejuta token dan kemampuan baru yang disebut Agent Teams.
Jendela konteks adalah prestasi teknis yang lebih besar. Dengan satu juta token, Opus 4.6 dapat memproses sekitar 3.000 halaman teks dalam satu prompt — empat kali lipat dari batas 256.000 token pendahulunya. Dipasangkan dengan dukungan output 128.000 token, model sekarang dapat mengonsumsi dan bekerja dengan seluruh basis kode, pengajuan regulasi, atau korpus penelitian tanpa chunking atau ringkasan.
Agent Teams, tersedia di Claude Code, memungkinkan beberapa instance Claude bekerja secara paralel pada basis kode yang sama. Daripada satu agen yang menjalankan tugas secara berurutan, pengembang dapat membuat tim di mana satu agen menangani perubahan frontend, yang lain menulis tes, dan yang ketiga merefaktor logika backend — semua berkoordinasi pada proyek yang sama secara bersamaan.
Opus 4.6 juga memperkenalkan pemikiran adaptif, yang memungkinkan model untuk mengkalibrasi seberapa banyak upaya penalaran yang harus diinvestasikan dalam prompt tertentu. Pertanyaan sederhana mendapatkan respons cepat; masalah kompleks memicu pemikiran yang lebih dalam dan diperpanjang. Pengembang dapat menyesuaikan ini melalui kontrol upaya di seluruh empat tingkat: rendah, sedang, tinggi, dan maks.
Pada benchmark, Opus 4.6 mencetak skor tertinggi pada Terminal-Bench 2.0 untuk pengkodean agen dan memimpin Ujian Terakhir Kemanusiaan, evaluasi penalaran yang kompleks. Anthropic mengklaim keunggulan 144 poin Elo atas GPT-5.2 pada evaluasi GDPval-AA dan perbaikan 190 poin atas Opus 4.5.
Harga API tetap tidak berubah pada $5 per juta token input dan $25 per juta token output, meskipun prompt yang melebihi 200.000 token membawa tarif premium sebesar $10/$37,50.
Dalam langkah perusahaan yang terkenal, Anthropic mengumumkan pratinjau penelitian Claude di Microsoft PowerPoint, di mana model dapat membaca tata letak slide dan templat yang ada dan menghasilkan atau mengedit presentasi sambil mempertahankan pemformatan merek.
OpenAI’s GPT-5.3-Codex: Model yang Membantu Membangun Diri Sendiri
Beberapa menit setelah pengumuman Anthropic, OpenAI meluncurkan GPT-5.3-Codex, model pengkodean yang paling mampu. Rilis ini mempersatukan kinerja pengkodean frontier GPT-5.2-Codex dengan kemampuan penalaran dan pengetahuan profesional GPT-5.2 menjadi satu sistem yang juga 25 persen lebih cepat.
Klaim yang paling mencolok: GPT-5.3-Codex membantu membangun dirinya sendiri. Tim Codex OpenAI menggunakan versi awal model selama proses pelatihan — memecahkan debug pelatihan, mengelola infrastruktur penerapan, dan mendiagnosis hasil evaluasi. Ini adalah pengakuan publik pertama OpenAI bahwa model sangat penting dalam pengembangannya sendiri, sebuah tonggak yang menimbulkan pertanyaan tentang efisiensi dan keamanan.
GPT-5.3-Codex mencetak rekor industri baru pada SWE-Bench Pro dan Terminal-Bench, benchmark yang mengevaluasi tugas pengembangan perangkat lunak dunia nyata. Model dapat menangani tugas berjalan lama yang melibatkan penelitian, penggunaan alat, dan eksekusi kompleks, dan pengguna dapat berinteraksi dengannya di tengah tugas tanpa kehilangan konteks — lebih seperti berkolaborasi dengan rekan kerja daripada mengeluarkan perintah.
Model ini tersedia sekarang untuk semua pengguna rencana berbayar ChatGPT melalui aplikasi Codex, CLI, ekstensi IDE, dan antarmuka web. Akses API akan segera hadir.
Untuk pengembang yang memilih antara pembangkit kode AI, gambaran kompetitif sekarang sangat jelas: Opus 4.6 memimpin pada koordinasi agen dan pekerjaan konteks panjang, sementara GPT-5.3-Codex menekankan kecepatan dan penalaran terintegrasi. Keduanya mengklaim tanda teratas pada benchmark yang tumpang tindih, dan alat seperti Cursor dan Xcode Apple mendukung keduanya, sehingga pengembang dapat beralih secara bebas.
OpenAI Frontier: Agen Perusahaan Mendapatkan Platform Sendiri
Bersamaan dengan peluncuran model, OpenAI memperkenalkan Frontier, platform perusahaan untuk membangun, menerapkan, dan mengelola agen AI. Frontier terhubung ke database, sistem CRM, platform HR, alat tiket, dan aplikasi bisnis lainnya, lalu memungkinkan agen AI menjalankan proses di seluruhnya.
OpenAI menjelaskan Frontier sebagai “lapisan semantik untuk perusahaan” di mana karyawan manusia dan agen AI beroperasi pada platform yang sama dengan akses data dan kontrol keamanan yang dibagikan. Agen mendapatkan identitas seperti karyawan, konteks organisasi yang dibagikan, dan izin perusahaan kelas.
Platform ini tidak bergantung pada model — perusahaan dapat mengelola agen yang dibangun pada model OpenAI bersama dengan yang dari Google, Microsoft, dan Anthropic. Pelanggan awal termasuk Intuit, State Farm, Thermo Fisher, dan Uber.
Frontier memposisikan OpenAI untuk bersaing langsung dengan platform perusahaan seperti Agentforce Salesforce dan agen AI ServiceNow. Perbedaannya: OpenAI membangun dari lapisan model ke atas, sementara pendahulu menambahkan AI ke alat kerja yang ada. Apakah perusahaan lebih suka infrastruktur agen dari penyedia AI atau vendor perangkat lunak mereka akan mendefinisikan kompetisi AI perusahaan pada 2026.
Perplexity’s Model Council: Tiga Model, Satu Jawaban
Perplexity meluncurkan Model Council, fitur yang menjalankan query yang sama di seluruh tiga model secara bersamaan — Claude Opus, GPT, dan Gemini — lalu menggunakan model sintetis untuk menggabungkan output mereka menjadi satu jawaban yang menandai area kesepakatan dan ketidaksepakatan.

Gambar: Perplexity
Premisnya adalah bahwa tidak ada model tunggal yang secara konsisten terbaik di seluruh query. Ketika tiga model frontier berkumpul pada jawaban yang sama, kepercayaan diri tinggi. Ketika mereka berbeda, pengguna tahu untuk menyelidiki lebih lanjut. Model Council tersedia untuk pelanggan Max dan diposisikan untuk penelitian investasi, analisis strategis, dan pengambilan keputusan yang kompleks.
Fitur ini mencerminkan strategi Perplexity untuk membedakan melalui orkestrasi multi-model daripada membangun model dasar. Ketika kesenjangan antara chatbot AI frontier menyempit pada benchmark individu, menggabungkan output mereka mungkin terbukti lebih berharga daripada memilih penyedia tunggal.
Apa yang Dimaksud
Rilis ini mengonfirmasi bahwa kompetisi AI telah bergeser dari kemampuan model ke infrastruktur produk. Baik OpenAI maupun Anthropic memiliki model yang menduduki benchmark yang sama; perbedaan sekarang hidup dalam apa yang dapat dibangun di atasnya.
Perplexity, sementara itu, membuat argumen sunyi bahwa perang model mungkin kurang penting daripada bagaimana Anda menggabungkan model. Jika Model Council terbukti berguna, ini menunjukkan bahwa masa depan bukanlah memilih antara Claude dan GPT — melainkan menggunakan keduanya.
Untuk pengembang dan perusahaan yang mengevaluasi tumpukan AI mereka, ini hanya membuat keputusan lebih sulit.












