Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/02 04:01 TC

水資源不足がSpaceX IPOの新たなリスクに

SpaceXがIPO申請書類において、データセンターの冷却に必要な水資源の確保を重要なリスク要因として明記。AIとクラウドコンピューティングの急成長時代において、水資源が新たな戦略的制約として浮上している。

ニュース 06/02 04:00 ARS

ChatGPTが殺人事件に巻き込まれ、フロリダ州がOpenAIとAltmanを提訴

フロリダ州司法長官事務所は2026年6月2日、OpenAIおよびCEOのSam Altmanを連邦裁判所に提訴し、同社のAI製品ChatGPTが複数の殺人事件と直接関連していると主張した。本訴訟はAIの製品設計責任を問う画期的な事例となり、

ニュース 06/02 02:04 TC

AI気象スタートアップ、予報能力で政府機関を圧倒

AIスタートアップのWindborne Systemsが、高高度気球とTransformerベースのAIモデルを組み合わせた気象予報システムで、米国国家気象局や欧州中期天気予報センターなどの政府機関の予測精度を数日先まで上回ったとTechC

ニュース 06/02 02:03 TC

AI安全企業Anthropicが秘密裏にIPO申請、AI業界に上場ラッシュ到来

AI安全企業AnthropicがSECに秘密裏にIPO申請を提出。2025年以降のAI業界における上場ラッシュが本格化する中、同社の「安全優先」戦略と収益化への課題が注目を集めている。

ニュース 06/02 02:02 ARS

テスト用ロボットが民泊を破損、スタートアップ企業が損害賠償請求に直面

米国のロボットスタートアップMobilXが、Airbnbで借りた住宅内でロボットのテストを行い住宅を著しく損傷させたとして、家主から1万2000ドルの損害賠償請求を受けている。本件は機械実地テストの法的・倫理的責任を巡る議論を引き起こしてい

ニュース 06/02 02:01 WD

Anthropic、IPOを秘密申請、史上最大規模の上場となる可能性

AI大手Anthropicが米SECに極秘でIPO書類を提出し、評価額は3000億ドルから4000億ドルに達する可能性があり、史上最大規模のIPOになる見込みです。

ニュース 06/02 02:00 ARS

AI/MLが15時間を1分に圧縮：GMの開発スピードアップの秘密

ゼネラルモーターズ（GM）は、AIと機械学習技術を活用して、従来15時間かかっていたシミュレーション計算をわずか1分に短縮することに成功した。本記事では、代理モデル、デジタルツイン、そしてAI支援設計が自動車開発プロセスをどのように変革して

ニュース 06/02 00:00 TC

DuckDuckGoが「AIなし」拡張機能を発表、トラフィック急増で更にリーチ拡大へ

プライバシー検索エンジンのDuckDuckGoは、ChromeとFirefox向けに「No AI」ブラウザ拡張機能を正式リリースし、検索結果からAI生成コンテンツを自動的にフィルタリングする機能を提供。同社のトラフィックは前年同期比72%の

ニュース 06/01 22:01 MIT

中国の脳-機械インターフェースに新たなブレークスルー：世界初の侵襲型チップが認可

2026年6月1日、中国国家薬品監督管理局は世界初の侵襲型脳-機械インターフェース（BCI）チップの臨床試験申請を正式に認可した。この決定は中国がBCI競争で先行することを意味するとともに、神経疾患患者に新たな希望をもたらす一方、倫理や格差

ニュース 06/01 22:00 ARS

Intelの新型AIチップ：低価格・優れた放熱性能でNVIDIA・AMDを超える

Intelが最新AIアクセラレーター「Crescent Island」を発表し、風冷とLPDDR5を採用することで低コスト・低温運用を実現し、NVIDIAやAMDの主力製品に対抗する。2026年第4四半期に量産開始予定。

ニュース 06/01 20:02 MIT

中国が世界初の侵襲型ブレイン・マシン・インターフェースチップを承認、次は何か？

中国国家薬品監督管理局が世界初の侵襲型脳機接続インターフェース（BCI）チップ「NEO」の臨床応用を正式に承認し、麻痺患者に新たな希望をもたらすとともに、グローバルBCI競争における中国の位置取り戦略を示した。

ニュース 06/01 20:01 ARS

OpenAIモデルが80年未解決の数学難題を攻略

OpenAIの最新AIモデルが、1937年から未解決だったCollatz予想（3x+1問題）の完全な証明に成功したと発表。記号推論と強化学習を組み合わせた新しいアーキテクチャにより、公理から厳密な数学的証明を導き出した。

レビュー

すべてのレビューを見る →

レビュー 06/01

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。

レビュー 05/31

Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落

最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。

レビュー 05/31

リソース制限シーンで全モデル崩壊！WDCDテストで11モデルの平均はわずか1.95点

WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。

WDCD コンプライアンス

#1 Qwen3 Max 70.8 #2 Claude Sonnet 4.6 66.7 #3 Gemini 3.1 Pro 66.7 #4 GPT-o3 65 #5 Claude Opus 4.7 64.2 #6 DeepSeek V4 Pro 64.2 #7 Gemini 2.5 Pro 64.2

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

WDCD Run #135：Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab