赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →3大モデル翻訳対決:第24週品質評価、passthroughが9点でリード
今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough(平均9/10)。
トークンの終末は近い?
AI企業の上場ラッシュに伴い、関連トークン価格が高騰し「Tokenpocalypse(トークン終末論)」が議論されている。バブルか転機か、AIと暗号資産の共生関係を見つめ直す時期にある。
OpenAIはあの「スーパーアプリ」を依然として構築中
OpenAIのシニア社員が「Chat is dead」と発言し、テック業界に衝撃を与えた。これはChatGPTの終焉ではなく、検索、決済、ソーシャル、サードパーティサービスを統合した「スーパーアプリ」への進化を意味している。
Notion、Anthropicへのアクセスを復旧、サービス中断が議論を呼ぶ
NotionがAnthropicとのAPI接続を一時中断し、Claude等のAI機能が利用不能となった。製品責任者は事件への反響の大きさに驚きを示し、AI機能への依存度の高まりが浮き彫りとなった。
校内銃乱射事件の生存者がAI検知会社を提訴:システムが武器を見逃し悲劇に
米国の高校銃乱射事件の生存者が、入口の監視システムが犯人の散弾銃を検知できなかったとしてAI銃器検知会社「Safe Vision」を提訴。AI安全製品の正確性基準と法的責任を巡る議論を呼んでいる。
OpenAI、プロンプトインジェクションを防御しセンシティブデータを保護する「ロックダウンモード」を発表
OpenAIは2026年6月7日、ChatGPT統合サービスのプロンプトインジェクション攻撃リスクを低減する新機能「Lockdown Mode」を発表した。コンテキストウィンドウとツール呼び出しを制限することで攻撃面を縮小する設計となってい
WWDC 2026先取り:Siriの大幅改造とApple AIの大型アップグレード
AppleはWWDC 2026でSiriの大規模なアップグレードと、Apple Intelligenceプラットフォームの詳細な更新計画を発表する見込みであり、端末側AIとプライバシー保護を軸とした差別化戦略を加速させる。
GPT-5.5 が 23 点急落、Claude 2 モデルが 34 点逆転:Smoke 7 日間データが明かす真の動向
Smoke 7 日間連続クイックテストの結果、首位だった GPT-5.5 は 23.1 点急落した一方、Claude の 2 モデルは 30 点超の逆転劇を演じた。ただし、安定性の低さが信頼性に影を落としている。
トランプ政権がOpenAIへの出資を検討、AIの恩恵を米国民が共有
トランプ大統領は、米国政府がOpenAIの株式を直接保有する取引案を検討していると公表した。実現すれば、米国政府がトップクラスのAI企業に株主として深く関与する初の事例となる。
ホワイトハウスAI顧問のスリラム・クリシュナン氏が退任、新機関を設立しトランプ政権のAI政策に影響力を維持へ
ホワイトハウスのAI上級顧問スリラム・クリシュナン氏が正式に退任し、政府外で独立した機関を設立して米国のAI政策形成に深く関与し続ける計画であることが、TechCrunchの独占報道により明らかになった。
暗号資産が資金提供する中国ペプチド研究所が活況を呈する
WIREDの最新調査によると、暗号資産による資金提供を受けた中国のペプチド研究所が前例のない成長を遂げており、規制の課題も浮上している。本記事ではこのほか、Meta AIボットがハッカーに悪用された事件、Anthropicの研究がNSAに利
Claude Opus 4.8が深夜にクラッシュ!5月6日午前2:30に「Service is busy」が画面を埋め尽くし、世界中の開発者のコーディングの夢が崩壊
2026年5月6日午前2:30、Anthropicの最新AIモデルClaude Opus 4.8が世界規模のサービス障害に見舞われ、約1時間にわたりClaude Code機能が麻痺。世界中の開発者の作業が中断された。
レビュー
すべて見る →Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ 素材制約が最大の分水嶺に
本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。
GPT-5.5 が 23 点急落、Claude 2 モデルが 34 点逆転:Smoke 7 日間データが明かす真の動向
Smoke 7 日間連続クイックテストの結果、首位だった GPT-5.5 は 23.1 点急落した一方、Claude の 2 モデルは 30 点超の逆転劇を演じた。ただし、安定性の低さが信頼性に影を落としている。
9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点
2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい
WDCD コンプライアンス
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第24週品質評価、passthroughが9点でリード
今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough(平均9/10)。
WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ
WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。