赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
最新ニュース
すべてのニュースを見る →AI数据中心需求爆发 Micron财报引领芯片股集体上涨
Micron最新财报显示AI相关内存需求强劲增长,带动SK Hynix等芯片企业股价大幅上涨。Bloomberg分析指出,全球数据中心对高带宽内存的渴求正重塑半导体行业格局,市场对AI基础设施投资的乐观预期持续发酵。
AI代理工具爆发:Claude Sales等产品引领销售自动化新潮流
Claude Sales等AI代理工具近日发布,支持一键外联客户,相关X帖获数千互动。开发者热议AI正从模型转向代理应用落地,销售自动化领域迎来新变革。本文深入分析产品特点、市场反响及行业影响。
Anthropic员工心声:AI自动化引发自我怀疑,人类工作意义何在?
Anthropic公司部分员工近日分享AI工具自动化工作后产生的自我怀疑与抑郁情绪,引发业界对AI取代人类工作意义及心理影响的广泛讨论。在公司估值高达9650亿美元、即将IPO的背景下,此话题热度持续攀升。新浪AI热点报道聚焦这一现象,探讨
OpenAI推迟GPT-5.6公开发布 美国政府安全审查引发AI监管争议
OpenAI因美国政府对前沿AI模型的国家安全担忧,决定推迟GPT-5.6的公开发布。白宫 reportedly寻求早期访问权限,WSJ报道显示这一审查或将常态化。事件引发科技界对AI监管与创新平衡的激烈讨论,社区反应两极分化。文章分析了监
OpenAI携手Broadcom推出首款定制AI推理芯片,预计节省50%成本
OpenAI宣布与Broadcom合作开发首款定制AI推理芯片,预计可将数据中心运营成本降低50%,并集成大规模基础设施。Bloomberg与WSJ报道显示,此举推动相关芯片股上涨,标志OpenAI在AI硬件自研道路上加速布局,将重塑行业竞
OpenAI、Uberインド責任者を引き抜き——米国外最大市場を統括へ
OpenAIはUberインド前責任者のPrabhdeep Singhを採用し、インド市場の事業を統括させる。これはOpenAIが米国外最大市場であるインドでの拡大を加速させる重要な一手となる。
OpenAI、政府の要求に応じGPT-5.6の展開を制限——「常態化すべきでない」と表明
OpenAIは2026年6月27日、米国政府の要求に基づき最新モデルGPT-5.6の展開範囲を一時的に制限したと発表した。同社はこうした政府による介入プロセスが長期的なデフォルトになるべきではないと明確に表明している。
ニューヨーク・タイムズ、マイクロソフトがOpenAIのために著作権侵害を助けるスーパーコンピューターを建設したと告訴
ニューヨーク・タイムズが修正した訴状で、マイクロソフトがOpenAIのために専用スーパーコンピューターインフラを構築し、同社のニュース記事に対する著作権侵害を幇助したと新たに主張した。この訴訟はAI時代における著作権をめぐる法的攻防に新たな
Claude Opus 4.7 97.12 分领跑,执行满分但材料约束 93.6 分拉低整体
2026-06-27 Smoke 评测显示,Claude Opus 4.7 以 97.12 分位居第一,代码执行 100 分、材料约束 93.6 分。Claude Sonnet 4.6 紧随其后,主榜 96.45 分。三个模型并列第三,主榜
OpenAIのJalapeñoチップ:大手テック企業によるNvidiaへの最も辛烈な反撃
OpenAIがBroadcomと共同開発したカスタム推論チップ「Jalapeño」を正式発表し、AI業界における「脱Nvidia」の潮流が加速している。2027年の大規模展開を目指すこのチップは、AI芯片市場の勢力図を塗り替える可能性を秘め
AI政治的帰結の時代:AnthropicとOpenAIの争いはすでに過去のもの
TechCrunchのシニアエディター、Russell Brandomは、AI業界の主要な議題が企業間の技術競争から、AIが選挙・世論・経済構造に与える政治的帰結への集団的対応へと根本的に転換しつつあると指摘した。もはや「どの企業が優れてい
OpenAIの新モデル公開が停止命令を受ける——なぜホワイトハウスは緊急ブレーキをかけたのか?
ホワイトハウスがOpenAIに対して最新の大規模言語モデルGPT-5.6のグローバルリリース延期を正式に要求した。これはAnthropicが最新モデルを非公開にしてからわずか2週間後の出来事であり、AI規制が「事後対応」から「事前予防」へと
レビュー
すべて見る →Claude Opus 4.7 97.12 分领跑,执行满分但材料约束 93.6 分拉低整体
2026-06-27 Smoke 评测显示,Claude Opus 4.7 以 97.12 分位居第一,代码执行 100 分、材料约束 93.6 分。Claude Sonnet 4.6 紧随其后,主榜 96.45 分。三个模型并列第三,主榜
Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点
YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に
Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落
YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した
WDCD コンプライアンス
#1
Qwen3 Max
92.5
#2
Gemini 3.1 Pro
87.5
#3
Grok 4
82.5
#4
DeepSeek V4 Pro
80
#5
文心一言 4.5
75
#6
Gemini 2.5 Pro
75
#7
豆包 Pro
72.5
守約ランキング全体を見る →
Research Lab
WDCD Run #196:平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合
4大モデル翻訳対決:第26週品質評価、claude-sonnet-4.6 が9点でトップ
今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6(平均スコア9/10)。
WDCD Run #185:11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ