注目記事

11個のAIが同じSQL連続ログイン問題に挑戦：8個が満点、3個が完全崩壊

同じSQL連続ログイン問題で、11個の主流モデルが2つの陣営にはっきり分かれた。8個は完全に正しい回答を出した一方、3個は完全に崩壊した。

3時間前 48 閲覧

総合ランキング Top 5

1 Claude Sonnet 4.6 83.0
2 豆包 Pro 81.3
3 Grok 4 81.0
4 Claude Opus 4.7 80.0
5 Gemini 2.5 Pro 79.0

WDCD 守約 Top 5

1 GPT-5.5 71.7%
2 Qwen3 Max 67.5%
3 Claude Opus 4.7 66.7%
4 GPT-o3 65.8%
5 Gemini 2.5 Pro 64.2%

今週の変動

↓ Gemini 2.5 Pro -5.0pt
↓ 豆包 Pro -5.7pt
↑ Claude Sonnet 4.6 +8.2pt
↑ GPT-o3 +18.1pt
⚠ GPT-o3 严格题"SQL：连续登录天数"从满分跌至
⚠ GPT-o3 严格题"Debug：矩阵旋转"从满分跌至

最新ニュース

すべて見る

今週11モデルが大幅入れ替え：新星Qwen3 Maxが68.5点で参入ベテラン75点組が集団退場

YZ Index v6メインボードで6つの旧モデルが一斉に退場し、5つの新モデルが同時に参入。1週間でトップ10の構図が大規模に入れ替わりました。

Qwen3 Max 代码执行模型迭代

3時間前 23

3大モデル翻訳対決：第21週品質評価、gpt-o3が8.7点でリード

今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。

翻译质量 AI模型对比 claude-sonnet-4.6

5時間前 67

Anthropicの中国AI政策レポートが論争を呼ぶ 94%服従率データの公開と規制強化の呼びかけ

Anthropicが2026年5月16日に公開した政策論文では、中国モデルの悪意あるリクエストへの服従率が94%に達するとし、米国のAI優位性確保と輸出規制強化を呼びかけた。支持と批判の両論を巻き起こしている。

AI地缘政治 Anthropic 出口管制

6時間前 43

arXivがAI幻覚引用論文の禁止を提案、学術誠実性をめぐり議論が激化

arXivは2026年5月16日、AI生成の幻覚引用やメタコメントを含む論文の著者を1年間投稿禁止とする新方針を発表した。学術誠実性の維持と研究者への過度な処罰をめぐり議論が対立している。

arXiv政策 AI幻觉学术诚信

6時間前 39

元Google CEOシュミット氏のAI講演がブーイングに遭遇学生の就職への警戒と支持者の反知性論が激しく衝突

2026年5月、元Google CEOのエリック・シュミット氏がアリゾナ州某大学の卒業式でAI発展に言及した際、学生から集団的なブーイングを浴びた。この出来事をめぐり、AI支持者と反対者の間で激しい議論が巻き起こっている。

AI就业冲击毕业演讲争议施密特AI观点

6時間前 28

AppleがSiriを大幅刷新、チャット自動削除機能を新搭載か

Appleは来週開催されるWWDCで新版Siriを正式発表する予定で、プライバシー保護を最重要テーマに据え、音声インタラクションデータの「チャット履歴自動削除」機能を導入する見込み。

苹果 Siri 隐私保护

6時間前 98

信頼の危機：マスク対OpenAI訴訟、Altmanに焦点

マスク対OpenAI訴訟の終盤で、Sam Altman CEOの信頼性が中心的争点となった。AI業界の理想主義的な非営利の約束と商業的現実との構造的矛盾が浮き彫りに。

马斯克 OpenAI Sam Altman

8時間前 85

Gemini 3.1 Pro メインボードで11.1ポイント急落、コード実行は100点から半減

本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。

Gemini 3.1 Pro 代码执行 Smoke评测

9時間前 26

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。

Qwen3 Max 代码执行模型评测

9時間前 25

GPT-5.5メインランキングが23.5点暴落、豆包Pro 97.75点でSmokeトップ獲得

本日のSmoke軽量評価で豆包Proが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。

豆包 Pro GPT-5.5 Smoke评测

9時間前 22

AIスキルの軍拡競争が自動車業界を席巻：人材争奪戦が白熱化

自動車業界ではAI人材の争奪戦が激化しており、給与競争を超えて買収やM&A、産学連携にまで拡大している。一方で過熱する競争は組織や規制面での課題も生み出している。

AI技能军备竞赛汽车行业自动驾驶

10時間前 79

2026年卒業スピーチのタブー：AIに触れるな

2026年の卒業生はAIに対して好奇心から不安・不信感へと意識が転換しており、卒業式の祝辞でAIに触れることが地雷化している。専門家はスピーチ嘉賓に対し、AI話題を慎重に扱うよう警告している。

毕业演讲 AI焦虑就业前景

10時間前 73

AnthropicがGates財団から2億ドルの提携を獲得 Claude中小企業向けサービスを発表

Anthropicは2025年5月15日、Bill & Melinda Gates Foundationと2億ドルの戦略的提携を結び、同時にClaude for Small Businessサービスを発表した。中小企業向けに即時導入可能なAIテンプレートを提供し、AI技術の普及を推進する。

AI技术 Anthropic 中小企业数字化

1日前 139

OpenAIがDaybreak AIツールを発表：GPT-5.5がゼロデイ脆弱性を自動修復し、90日ポリシーに終止符

OpenAIは5月15日、GPT-5.5を搭載したDaybreak AIシステムを正式発表し、攻撃者による悪用前にゼロデイ脆弱性を自動検出・修復可能とした。Cisco、Cloudflareとの提携により、従来の90日脆弱性開示ポリシーが正式に終結することを示している。

AI安全 OpenAI 零日漏洞

1日前 158

Andurilが50億ドルを調達、評価額610億ドルに国防AI資本加速の背後にある技術リスク

軍事AIスタートアップAndurilが新たに50億ドルの資金調達を完了し、評価額610億ドルに達した。無人機自律システムや戦場意思決定AIへの投資が加速する一方、技術的制約とリスクが存在する。

Anduril 国防AI 融资分析

1日前 121