Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/08 07:01

3大モデル翻訳対決：第24週品質評価、passthroughが9点でリード

今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough（平均9/10）。

ニュース 06/08 06:00 TC

トークンの終末は近い？

AI企業の上場ラッシュに伴い、関連トークン価格が高騰し「Tokenpocalypse（トークン終末論）」が議論されている。バブルか転機か、AIと暗号資産の共生関係を見つめ直す時期にある。

ニュース 06/08 02:01 TC

OpenAIはあの「スーパーアプリ」を依然として構築中

OpenAIのシニア社員が「Chat is dead」と発言し、テック業界に衝撃を与えた。これはChatGPTの終焉ではなく、検索、決済、ソーシャル、サードパーティサービスを統合した「スーパーアプリ」への進化を意味している。

ニュース 06/08 02:00 TC

Notion、Anthropicへのアクセスを復旧、サービス中断が議論を呼ぶ

NotionがAnthropicとのAPI接続を一時中断し、Claude等のAI機能が利用不能となった。製品責任者は事件への反響の大きさに驚きを示し、AI機能への依存度の高まりが浮き彫りとなった。

ニュース 06/07 20:00 ARS

校内銃乱射事件の生存者がAI検知会社を提訴：システムが武器を見逃し悲劇に

米国の高校銃乱射事件の生存者が、入口の監視システムが犯人の散弾銃を検知できなかったとしてAI銃器検知会社「Safe Vision」を提訴。AI安全製品の正確性基準と法的責任を巡る議論を呼んでいる。

ニュース 06/07 06:00 TC

OpenAI、プロンプトインジェクションを防御しセンシティブデータを保護する「ロックダウンモード」を発表

OpenAIは2026年6月7日、ChatGPT統合サービスのプロンプトインジェクション攻撃リスクを低減する新機能「Lockdown Mode」を発表した。コンテキストウィンドウとツール呼び出しを制限することで攻撃面を縮小する設計となってい

ニュース 06/07 04:00 TC

WWDC 2026先取り：Siriの大幅改造とApple AIの大型アップグレード

AppleはWWDC 2026でSiriの大規模なアップグレードと、Apple Intelligenceプラットフォームの詳細な更新計画を発表する見込みであり、端末側AIとプライバシー保護を軸とした差別化戦略を加速させる。

レビュー 06/07 03:10

GPT-5.5 が 23 点急落、Claude 2 モデルが 34 点逆転：Smoke 7 日間データが明かす真の動向

Smoke 7 日間連続クイックテストの結果、首位だった GPT-5.5 は 23.1 点急落した一方、Claude の 2 モデルは 30 点超の逆転劇を演じた。ただし、安定性の低さが信頼性に影を落としている。

ニュース 06/07 02:01 TC

トランプ政権がOpenAIへの出資を検討、AIの恩恵を米国民が共有

トランプ大統領は、米国政府がOpenAIの株式を直接保有する取引案を検討していると公表した。実現すれば、米国政府がトップクラスのAI企業に株主として深く関与する初の事例となる。

ニュース 06/07 02:00 TC

ホワイトハウスAI顧問のスリラム・クリシュナン氏が退任、新機関を設立しトランプ政権のAI政策に影響力を維持へ

ホワイトハウスのAI上級顧問スリラム・クリシュナン氏が正式に退任し、政府外で独立した機関を設立して米国のAI政策形成に深く関与し続ける計画であることが、TechCrunchの独占報道により明らかになった。

ニュース 06/06 20:00 WD

暗号資産が資金提供する中国ペプチド研究所が活況を呈する

WIREDの最新調査によると、暗号資産による資金提供を受けた中国のペプチド研究所が前例のない成長を遂げており、規制の課題も浮上している。本記事ではこのほか、Meta AIボットがハッカーに悪用された事件、Anthropicの研究がNSAに利

ニュース 06/06 17:43

Claude Opus 4.8が深夜にクラッシュ！5月6日午前2:30に「Service is busy」が画面を埋め尽くし、世界中の開発者のコーディングの夢が崩壊

2026年5月6日午前2:30、Anthropicの最新AIモデルClaude Opus 4.8が世界規模のサービス障害に見舞われ、約1時間にわたりClaude Code機能が麻痺。世界中の開発者の作業が中断された。

レビュー

すべて見る →

レビュー 06/08

Claude Opus 4.7とGPT-5.5がSmokeランキング首位タイ素材制約が最大の分水嶺に

レビュー 06/07

GPT-5.5 が 23 点急落、Claude 2 モデルが 34 点逆転：Smoke 7 日間データが明かす真の動向

レビュー 06/05

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい

WDCD コンプライアンス

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第24週品質評価、passthroughが9点でリード

今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough（平均9/10）。

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab