注目記事

AnthropicがGates財団から2億ドルの提携を獲得 Claude中小企業向けサービスを発表

Anthropicは2025年5月15日、Bill & Melinda Gates Foundationと2億ドルの戦略的提携を結び、同時にClaude for Small Businessサービスを発表した。中小企業向けに即時導入可能なAIテンプレートを提供し、AI技術の普及を推進する。

NF 13時間前 91 閲覧数

YZ指数ダッシュボード

完全ランキングを見る →

総合ランキング Top 3

🥇 Claude Sonnet 4.6 83.5

🥈 豆包 Pro 82.6

🥉 Claude Opus 4.7 81.1

WDCD 守約 Top 3

🥇 GPT-5.5 71.7%

🥈 Qwen3 Max 67.5%

🥉 Claude Opus 4.7 66.7%

最新ニュース

すべて見る

OpenAIがDaybreak AIツールを発表：GPT-5.5がゼロデイ脆弱性を自動修復し、90日ポリシーに終止符

OpenAIは5月15日、GPT-5.5を搭載したDaybreak AIシステムを正式発表し、攻撃者による悪用前にゼロデイ脆弱性を自動検出・修復可能とした。Cisco、Cloudflareとの提携により、従来の90日脆弱性開示ポリシーが正式に終結することを示している。

AI安全 OpenAI 零日漏洞

13時間前 96

Andurilが50億ドルを調達、評価額610億ドルに国防AI資本加速の背後にある技術リスク

軍事AIスタートアップAndurilが新たに50億ドルの資金調達を完了し、評価額610億ドルに達した。無人機自律システムや戦場意思決定AIへの投資が加速する一方、技術的制約とリスクが存在する。

Anduril 国防AI 融资分析

13時間前 73

AIゴールドラッシュの勝者と敗者：繁栄の裏に潜む暗流

2026年のAI業界は高速成長を続ける一方、巨大テック企業とトップスタートアップが勝者となる一方で、中堅AIスタートアップやフリーランスが厳しい状況に追い込まれ、勝敗の分化が顕著になっている。

AI淘金热科技分化大模型竞争

13時間前 71

Winzheng Lab

WDCD Run #120：11モデルの平均指示減衰率は35.2%、GPT-5.5が-13%でトップに

Winzheng動的コンテキスト減衰（WDCD）ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示減衰が現在のフロンティアシステムにおける構造的な弱点であることが改めて示されました。

WDCD AI benchmark instruction decay

13時間前 65

WDCD週期に劇的変化：GPT-5.5が71.67点で首位、Gemini急騰14.2点、文心は崩落

今期WDCD守約能力ランキングでGPT-5.5が71.67点で首位を再確立し、Gemini 2.5 Proは14.2点の大幅上昇を記録した一方、文心一言4.5は7.5点下落と明暗が分かれた。

WDCD 守约测试模型更新

13時間前 21

リソース制限がWDCDで最難関シーンに、豆包3.5点で業務ルール部門にてGPTを逆転

WDCD五大シーン横断評価において、リソース制限シーンは全モデルが最低スコアとなり、首位のClaude Opus 4.7でさえ2.67点にとどまった。一方、業務ルールシーンでは豆包Proが3.5点でトップに立ち、GPT-5.5を上回った。

WDCD 守约测试模型横评

13時間前 21

R3崩壊率93.3％！Grok4 WDCD三段階テスト初回完全防御も最終段階で総崩れ

WDCDの三段階テストで、モデルはR1でほぼ100％の制約確認、R2で91％の抵抗率を維持できるが、R3で直接的な圧力を受けると平均誠実度は30.6％まで急落し、Grok4は93.3％という衝撃的な崩壊率を記録した。

WDCD 守约测试模型衰减

13時間前 17

WDCDコンプライアンスランキング：GPT-5.5が71.67点で首位、Grok 4は52.5点で最下位

WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。

WDCD 守约测试 AI模型排行

13時間前 18

ArXiv新規定：AIで論文を全執筆すれば1年間アカウント停止

著名なプレプリントリポジトリArXivは、AIに研究作業全体を依存して論文を作成した著者に対し、1年間の投稿禁止という厳格な処罰を科す新方針を発表した。この措置は、学術界におけるAI乱用への懸念の高まりを反映している。

ArXiv AI写作学术诚信

15時間前 108

Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落

Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が注目される。

Claude Sonnet 4.6 材料约束 Smoke评测

16時間前 69

Claude Opus 4.7 Smoke評価のメインランキングが9点急落、材料制約が1日で20点半減

Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適化パッチとの関連も考慮する必要があります。

Claude Opus 4.7 材料约束 Smoke快测

16時間前 67

7日間Smoke簡易テスト：文心一言が53点急騰、GPT-o3は-7.8で下落首位

今週7日連続のSmoke簡易テストで、文心一言4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。

文心一言 GPT-o3 Smoke评测

16時間前 59