Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/07 06:00 TC

OpenAI、プロンプトインジェクションを防御しセンシティブデータを保護する「ロックダウンモード」を発表

OpenAIは2026年6月7日、ChatGPT統合サービスのプロンプトインジェクション攻撃リスクを低減する新機能「Lockdown Mode」を発表した。コンテキストウィンドウとツール呼び出しを制限することで攻撃面を縮小する設計となってい

ニュース 06/07 04:00 TC

WWDC 2026先取り：Siriの大幅改造とApple AIの大型アップグレード

AppleはWWDC 2026でSiriの大規模なアップグレードと、Apple Intelligenceプラットフォームの詳細な更新計画を発表する見込みであり、端末側AIとプライバシー保護を軸とした差別化戦略を加速させる。

レビュー 06/07 03:10

GPT-5.5 が 23 点急落、Claude 2 モデルが 34 点逆転：Smoke 7 日間データが明かす真の動向

Smoke 7 日間連続クイックテストの結果、首位だった GPT-5.5 は 23.1 点急落した一方、Claude の 2 モデルは 30 点超の逆転劇を演じた。ただし、安定性の低さが信頼性に影を落としている。

ニュース 06/07 02:01 TC

トランプ政権がOpenAIへの出資を検討、AIの恩恵を米国民が共有

トランプ大統領は、米国政府がOpenAIの株式を直接保有する取引案を検討していると公表した。実現すれば、米国政府がトップクラスのAI企業に株主として深く関与する初の事例となる。

ニュース 06/07 02:00 TC

ホワイトハウスAI顧問のスリラム・クリシュナン氏が退任、新機関を設立しトランプ政権のAI政策に影響力を維持へ

ホワイトハウスのAI上級顧問スリラム・クリシュナン氏が正式に退任し、政府外で独立した機関を設立して米国のAI政策形成に深く関与し続ける計画であることが、TechCrunchの独占報道により明らかになった。

ニュース 06/06 20:00 WD

暗号資産が資金提供する中国ペプチド研究所が活況を呈する

WIREDの最新調査によると、暗号資産による資金提供を受けた中国のペプチド研究所が前例のない成長を遂げており、規制の課題も浮上している。本記事ではこのほか、Meta AIボットがハッカーに悪用された事件、Anthropicの研究がNSAに利

ニュース 06/06 06:01 ARS

巨大データセンター計画、抗議により規模半減

5000エーカー超の敷地と小都市並みの消費電力を見込んでいた巨大データセンター計画が、地域住民による2年間の抗議を受け、開発業者が規模を50%縮小すると発表した。AIインフラ建設と地域世論の攻防を象徴する事例として注目されている。

ニュース 06/06 06:00 TC

Startup Battlefield 200の申請締切まであと3日！

TechCrunchが主催するStartup Battlefield 200の申請が太平洋時間2026年6月8日23時59分に締め切られる。世界中のスタートアップにとって、2026年10月にサンフランシスコで開催されるTechCrunch

ニュース 06/06 04:02 TC

「共聚テック」の波：2026年最も興味深い起業の賭け

AI融資ブームの中、Mirror創業者Brynn PutnamのBoardやCyberdeckコミュニティなど、デジタルではなくリアルな社交体験に賭ける創業者たちが台頭しており、2026年最も注目すべき起業トレンドとなりつつある。

ニュース 06/06 04:01 ARS

S&P 500がSpaceX、OpenAI、Anthropicの組み入れを拒否、数百億のパッシブ資金が封鎖

S&P 500指数委員会がSpaceX、OpenAI、Anthropicの組み入れ申請を正式に拒否し、これら3社のテクノロジー大手はパッシブ投資ファンドからの数十億ドル規模の資金を失うこととなった。この決定は、伝統的な指数フレームワークと新

ニュース 06/06 04:00 TC

GoogleがSpaceXに月額9.2億ドルを投じ、計算リソースをレンタル

GoogleはSpaceXと月額9.2億ドル、総額550億ドル超の5年間の計算リソースレンタル契約を締結。AI競争の激化を背景に、太空インフラを次世代AIコンピューティングの基盤として活用する戦略的賭けとなる。

ニュース 06/06 02:00 TC

今最も興味深いスタートアップ：あなたにスマホを置かせる

AIブームの中、スマホを置いて対面でのつながりを取り戻すことを目指す逆張りスタートアップが注目を集めている。BoardとCyberdeckは、テクノロジーを目的ではなくツールとして再定義する動きを代表している。

レビュー

すべて見る →

レビュー 06/07

GPT-5.5 が 23 点急落、Claude 2 モデルが 34 点逆転：Smoke 7 日間データが明かす真の動向

レビュー 06/05

9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点

2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい

レビュー 06/04

Smokeクイックテスト：文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。

WDCD コンプライアンス

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

守約ランキング全体を見る →

Research Lab

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab