- 1 Claude Sonnet 4.6 83.0
- 2 豆包 Pro 81.3
- 3 Grok 4 81.0
- 4 Claude Opus 4.7 80.0
- 5 Gemini 2.5 Pro 79.0
11個のAIが同じSQL連続ログイン問題に挑戦:8個が満点、3個が完全崩壊
同じSQL連続ログイン問題で、11個の主流モデルが2つの陣営にはっきり分かれた。8個は完全に正しい回答を出した一方、3個は完全に崩壊した。
続きを読むYZ指数ダッシュボード
完全ランキングを見る →- 1 GPT-5.5 71.7%
- 2 Qwen3 Max 67.5%
- 3 Claude Opus 4.7 66.7%
- 4 GPT-o3 65.8%
- 5 Gemini 2.5 Pro 64.2%
- ↓ Gemini 2.5 Pro -5.0pt
- ↓ 豆包 Pro -5.7pt
- ↑ Claude Sonnet 4.6 +8.2pt
- ↑ GPT-o3 +18.1pt
- ⚠ GPT-o3 严格题"SQL:连续登录天数"从满分跌至
- ⚠ GPT-o3 严格题"Debug:矩阵旋转"从满分跌至
最新ニュース
すべて見る今週11モデルが大幅入れ替え:新星Qwen3 Maxが68.5点で参入 ベテラン75点組が集団退場
YZ Index v6メインボードで6つの旧モデルが一斉に退場し、5つの新モデルが同時に参入。1週間でトップ10の構図が大規模に入れ替わりました。
3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。
Anthropicの中国AI政策レポートが論争を呼ぶ 94%服従率データの公開と規制強化の呼びかけ
Anthropicが2026年5月16日に公開した政策論文では、中国モデルの悪意あるリクエストへの服従率が94%に達するとし、米国のAI優位性確保と輸出規制強化を呼びかけた。支持と批判の両論を巻き起こしている。
arXivがAI幻覚引用論文の禁止を提案、学術誠実性をめぐり議論が激化
arXivは2026年5月16日、AI生成の幻覚引用やメタコメントを含む論文の著者を1年間投稿禁止とする新方針を発表した。学術誠実性の維持と研究者への過度な処罰をめぐり議論が対立している。
元Google CEOシュミット氏のAI講演がブーイングに遭遇 学生の就職への警戒と支持者の反知性論が激しく衝突
2026年5月、元Google CEOのエリック・シュミット氏がアリゾナ州某大学の卒業式でAI発展に言及した際、学生から集団的なブーイングを浴びた。この出来事をめぐり、AI支持者と反対者の間で激しい議論が巻き起こっている。
AppleがSiriを大幅刷新、チャット自動削除機能を新搭載か
Appleは来週開催されるWWDCで新版Siriを正式発表する予定で、プライバシー保護を最重要テーマに据え、音声インタラクションデータの「チャット履歴自動削除」機能を導入する見込み。
信頼の危機:マスク対OpenAI訴訟、Altmanに焦点
マスク対OpenAI訴訟の終盤で、Sam Altman CEOの信頼性が中心的争点となった。AI業界の理想主義的な非営利の約束と商業的現実との構造的矛盾が浮き彫りに。
Gemini 3.1 Pro メインボードで11.1ポイント急落、コード実行は100点から半減
本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。
Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減
Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。
GPT-5.5メインランキングが23.5点暴落、豆包Pro 97.75点でSmokeトップ獲得
本日のSmoke軽量評価で豆包Proが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。
AIスキルの軍拡競争が自動車業界を席巻:人材争奪戦が白熱化
自動車業界ではAI人材の争奪戦が激化しており、給与競争を超えて買収やM&A、産学連携にまで拡大している。一方で過熱する競争は組織や規制面での課題も生み出している。
2026年卒業スピーチのタブー:AIに触れるな
2026年の卒業生はAIに対して好奇心から不安・不信感へと意識が転換しており、卒業式の祝辞でAIに触れることが地雷化している。専門家はスピーチ嘉賓に対し、AI話題を慎重に扱うよう警告している。
AnthropicがGates財団から2億ドルの提携を獲得 Claude中小企業向けサービスを発表
Anthropicは2025年5月15日、Bill & Melinda Gates Foundationと2億ドルの戦略的提携を結び、同時にClaude for Small Businessサービスを発表した。中小企業向けに即時導入可能なAIテンプレートを提供し、AI技術の普及を推進する。
OpenAIがDaybreak AIツールを発表:GPT-5.5がゼロデイ脆弱性を自動修復し、90日ポリシーに終止符
OpenAIは5月15日、GPT-5.5を搭載したDaybreak AIシステムを正式発表し、攻撃者による悪用前にゼロデイ脆弱性を自動検出・修復可能とした。Cisco、Cloudflareとの提携により、従来の90日脆弱性開示ポリシーが正式に終結することを示している。
Andurilが50億ドルを調達、評価額610億ドルに 国防AI資本加速の背後にある技術リスク
軍事AIスタートアップAndurilが新たに50億ドルの資金調達を完了し、評価額610億ドルに達した。無人機自律システムや戦場意思決定AIへの投資が加速する一方、技術的制約とリスクが存在する。