Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 05/30 00:03 TC

Kiwibit AI鳥用フィーダー：裏庭のスマートな仲間

KiwibitのAI搭載スマート鳥用フィーダーは、AI画像認識とゲーミフィケーション機能を組み合わせ、ユーザーが裏庭でポケモンGOのように野鳥を「収集」しながら自然観察を楽しめる製品である。

ニュース 05/30 00:02 TC

残り24時間！TechCrunch Disrupt 2026早割チケットで410ドル節約

TechCrunch Disrupt 2026の早割優待が最終24時間を迎え、5月29日太平洋時間23:59までに購入すれば最大410ドルの割引が受けられる。本稿はチケット販売の裏側からAI時代の「会議経済」を読み解く。

ニュース 05/30 00:01 TC

最終通告！TechCrunch Disrupt 2026 講演者申請は本日締切

TechCrunch Disrupt 2026の講演者申請が本日（2026年5月29日）に締め切られる。世界トップクラスのテックサミットで自らのアイデアを発信する最後のチャンスとなる。

ニュース 05/30 00:00 WD

バチカンがAnthropicに送り込んだ内通者：教皇とAIの秘密の駆け引き

ローマ教皇レオ14世が、神学とコンピュータ倫理に精通したイエズス会士をAnthropicに「特使」として送り込み、AIの倫理基準にカトリックの道徳観を反映させようとしている。この異例の連携は、AI時代における倫理的主導権をめぐる宗教と技術の

ニュース 05/29 22:01 TC

このAIチップ新興企業が1.35億ドルを調達、ボトルネックは計算能力ではなくメモリにあると賭ける

韓国のAIチップ新興企業XCENAが1.35億ドルのシリーズB資金調達を完了し、近メモリ計算アーキテクチャを通じてAI業界の「メモリの壁」問題の解決を目指している。三星やSKハイニックスなどのメモリ大手が出資に参加した。

ニュース 05/29 22:00 MIT

新プロセスが世界のリチウム資源を解放、エボラ対策にもブレークスルー

MIT Technology Reviewが報じる電気化学的直接リチウム抽出（DLE）技術は、コストを40%、炭素排出を66%削減できる可能性を秘めている。同時に、ウガンダで臨床試験中の経口エボラワクチンは100%の免疫保護率を示した。

ニュース 05/29 20:02 MIT

教皇通諭『偉大なる仁愛』：AI時代に個人がとるべき行動指針

教皇レオ十四世が2026年5月29日に発布した人工知能に関する新通諭『偉大なる仁愛』は、「技術は決して中立ではない」と宣言し、個人が道徳的主体としてAI時代に参画することを呼びかけている。本記事は通諭が示す3つの行動指針と、グローバルAIガ

ニュース 05/29 20:01 AIN

AnthropicがClaude Opus 4.8をリリース：コーディングと推論能力を再びアップグレード

Anthropicは2026年5月29日にClaude Opus 4.8を正式リリースし、コーディング、エージェント業務、推論、知識業務の4分野で大幅な性能向上を実現。API応答時間も前バージョンより約20%短縮された。

ニュース 05/29 20:00 MIT

エボラ流行が再びコンゴ民主共和国を襲う、防疫対策は困難を極める

2026年5月、コンゴ民主共和国イトゥリ州でBundibugyo型エボラウイルスによる流行が確認された。武装紛争や脆弱な医療インフラが防疫を困難にしており、国際協調も課題となっている。

ニュース 05/29 09:18 TC

Glean、年間収益3億ドル突破、AI予算削減を切り札に

企業向けAI検索スタートアップのGleanが年間経常収益（ARR）3億ドル突破を発表、前年同期比200％成長を達成。「AI予算削減」を売り文句に巨人がひしめく市場で差別化を図っている。

ニュース 05/29 06:11 NF

Dell Q1決算が予想を上回る AIサーバー販売が757%急増、株価は30%超上昇

DellのQ1決算でAIサーバーの単四半期売上が161億ドル、前年同期比757%増を記録。全体売上と通期業績ガイダンスも上方修正され、時間外取引で株価は一時30%超上昇した。

ニュース 05/29 06:03 TC

AsanaがノーコードAIエージェント構築プラットフォームStackAIを買収

プロジェクト管理プラットフォームAsanaが、ノーコードAIエージェント構築プラットフォームStackAIの買収を発表。ドラッグ&ドロップ式のエージェント構築エンジンを統合し、AI駆動の業務オーケストレーションプラットフォームへの進化を目指

レビュー

すべてのレビューを見る →

レビュー 05/29

DeepSeek V4 Pro Smokeテスト、メインボードで48.7点急騰も工程判断は28.4点暴落

DeepSeek V4 Proが本日のSmoke評価で極端に分化した結果を示し、メインボードは87.99点まで急騰した一方、工程判断は10.00点に半減した。コード実行は満点を獲得したが、安定性とシステム的思考に明らかな短所が露呈している。

レビュー 05/29

Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に

Smoke軽量評価の最新データで、Claude Sonnet 4.6がメインランキング91.77点で首位を獲得。一方、GPT-o3はコード実行50点という低スコアにより最下位に沈んだ。

レビュー 05/28

豆包 Pro コード実行が80点暴落、メインランキングで1日に41.2点下落

豆包 Pro が本日の Smoke 評価でメインランキングが81.33点から40.12点へ41.2点下落。コード実行次元が満点100点から20点へ崩落し、単日で80点を失った。

WDCD コンプライアンス

#1 Qwen3 Max 72.5 #2 Claude Sonnet 4.6 65 #3 DeepSeek V4 Pro 62.5 #4 Gemini 2.5 Pro 60 #5 GPT-5.5 60 #6 Claude Opus 4.7 57.5 #7 GPT-o3 57.5

守約ランキング全体を見る →

Research Lab

WDCD Run #135：Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の

3大モデル翻訳対決：第22週品質評価、gpt-o3 が8.3点でリード

今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。

WDCD Run #125：平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab