- 1 Claude Sonnet 4.6 83.0
- 2 豆包 Pro 81.3
- 3 Grok 4 81.0
- 4 Claude Opus 4.7 80.0
- 5 Gemini 2.5 Pro 79.0
信頼の危機:マスク対OpenAI訴訟、Altmanに焦点
マスク対OpenAI訴訟の終盤で、Sam Altman CEOの信頼性が中心的争点となった。AI業界の理想主義的な非営利の約束と商業的現実との構造的矛盾が浮き彫りに。
続きを読むYZ指数ダッシュボード
完全ランキングを見る →- 1 GPT-5.5 71.7%
- 2 Qwen3 Max 67.5%
- 3 Claude Opus 4.7 66.7%
- 4 GPT-o3 65.8%
- 5 Gemini 2.5 Pro 64.2%
- ↑ Grok 4 +10.0pt
- ↑ GPT-5.5 +9.2pt
- ↑ Gemini 2.5 Pro +14.2pt
- ↓ 文心一言 4.5 -7.5pt
- ⚠ GPT-o3 严格题"SQL:连续登录天数"从满分跌至
- ⚠ GPT-o3 严格题"Debug:矩阵旋转"从满分跌至
最新ニュース
すべて見る信頼の危機:マスク対OpenAI訴訟、Altmanに焦点
マスク対OpenAI訴訟の終盤で、Sam Altman CEOの信頼性が中心的争点となった。AI業界の理想主義的な非営利の約束と商業的現実との構造的矛盾が浮き彫りに。
AIスキルの軍拡競争が自動車業界を席巻:人材争奪戦が白熱化
自動車業界ではAI人材の争奪戦が激化しており、給与競争を超えて買収やM&A、産学連携にまで拡大している。一方で過熱する競争は組織や規制面での課題も生み出している。
2026年卒業スピーチのタブー:AIに触れるな
2026年の卒業生はAIに対して好奇心から不安・不信感へと意識が転換しており、卒業式の祝辞でAIに触れることが地雷化している。専門家はスピーチ嘉賓に対し、AI話題を慎重に扱うよう警告している。
AnthropicがGates財団から2億ドルの提携を獲得 Claude中小企業向けサービスを発表
Anthropicは2025年5月15日、Bill & Melinda Gates Foundationと2億ドルの戦略的提携を結び、同時にClaude for Small Businessサービスを発表した。中小企業向けに即時導入可能なAIテンプレートを提供し、AI技術の普及を推進する。
OpenAIがDaybreak AIツールを発表:GPT-5.5がゼロデイ脆弱性を自動修復し、90日ポリシーに終止符
OpenAIは5月15日、GPT-5.5を搭載したDaybreak AIシステムを正式発表し、攻撃者による悪用前にゼロデイ脆弱性を自動検出・修復可能とした。Cisco、Cloudflareとの提携により、従来の90日脆弱性開示ポリシーが正式に終結することを示している。
Andurilが50億ドルを調達、評価額610億ドルに 国防AI資本加速の背後にある技術リスク
軍事AIスタートアップAndurilが新たに50億ドルの資金調達を完了し、評価額610億ドルに達した。無人機自律システムや戦場意思決定AIへの投資が加速する一方、技術的制約とリスクが存在する。
AIゴールドラッシュの勝者と敗者:繁栄の裏に潜む暗流
2026年のAI業界は高速成長を続ける一方、巨大テック企業とトップスタートアップが勝者となる一方で、中堅AIスタートアップやフリーランスが厳しい状況に追い込まれ、勝敗の分化が顕著になっている。
ArXiv新規定:AIで論文を全執筆すれば1年間アカウント停止
著名なプレプリントリポジトリArXivは、AIに研究作業全体を依存して論文を作成した著者に対し、1年間の投稿禁止という厳格な処罰を科す新方針を発表した。この措置は、学術界におけるAI乱用への懸念の高まりを反映している。
Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落
Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が注目される。
Claude Opus 4.7 Smoke評価のメインランキングが9点急落、材料制約が1日で20点半減
Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適化パッチとの関連も考慮する必要があります。
7日間Smoke簡易テスト:文心一言が53点急騰、GPT-o3は-7.8で下落首位
今週7日連続のSmoke簡易テストで、文心一言4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。
3モデルが88.75点で同率1位、Claude双璧が12点暴落、Smokeランキング激震
本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ランキングが大きく変動した。
OpenAI共同創業者Greg Brockmanが製品戦略を統括、ChatGPTとCodexの統合が現実味
OpenAI共同創業者のGreg Brockmanが全社的な製品戦略の策定と実行を正式に引き継ぎ、同時に主力製品であるChatGPTとCodexの技術スタックおよびユーザー体験面での統合が内部で検討されている。
米国、AIに賭ける——予測市場のインサイダー取引摘発へ
米国商品先物取引委員会(CFTC)はAIを活用して予測市場におけるインサイダー取引の取り締まりを開始する。機械学習モデルで異常取引パターンを検出する計画だが、プライバシーや法的定義の課題も浮上している。
アセクシュアルがAIパートナーで親密さを求める、性行為を伴わずとも論争を呼ぶ
アセクシュアル(無性愛者)の人々がAIチャットボットを通じて性行為を伴わない親密さを探求する現象が広がっているが、そのコミュニティ内部では身分認同を巡る賛否両論が起きている。