赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →Kiwibit AI鳥用フィーダー:裏庭のスマートな仲間
KiwibitのAI搭載スマート鳥用フィーダーは、AI画像認識とゲーミフィケーション機能を組み合わせ、ユーザーが裏庭でポケモンGOのように野鳥を「収集」しながら自然観察を楽しめる製品である。
残り24時間!TechCrunch Disrupt 2026早割チケットで410ドル節約
TechCrunch Disrupt 2026の早割優待が最終24時間を迎え、5月29日太平洋時間23:59までに購入すれば最大410ドルの割引が受けられる。本稿はチケット販売の裏側からAI時代の「会議経済」を読み解く。
最終通告!TechCrunch Disrupt 2026 講演者申請は本日締切
TechCrunch Disrupt 2026の講演者申請が本日(2026年5月29日)に締め切られる。世界トップクラスのテックサミットで自らのアイデアを発信する最後のチャンスとなる。
バチカンがAnthropicに送り込んだ内通者:教皇とAIの秘密の駆け引き
ローマ教皇レオ14世が、神学とコンピュータ倫理に精通したイエズス会士をAnthropicに「特使」として送り込み、AIの倫理基準にカトリックの道徳観を反映させようとしている。この異例の連携は、AI時代における倫理的主導権をめぐる宗教と技術の
このAIチップ新興企業が1.35億ドルを調達、ボトルネックは計算能力ではなくメモリにあると賭ける
韓国のAIチップ新興企業XCENAが1.35億ドルのシリーズB資金調達を完了し、近メモリ計算アーキテクチャを通じてAI業界の「メモリの壁」問題の解決を目指している。三星やSKハイニックスなどのメモリ大手が出資に参加した。
新プロセスが世界のリチウム資源を解放、エボラ対策にもブレークスルー
MIT Technology Reviewが報じる電気化学的直接リチウム抽出(DLE)技術は、コストを40%、炭素排出を66%削減できる可能性を秘めている。同時に、ウガンダで臨床試験中の経口エボラワクチンは100%の免疫保護率を示した。
教皇通諭『偉大なる仁愛』:AI時代に個人がとるべき行動指針
教皇レオ十四世が2026年5月29日に発布した人工知能に関する新通諭『偉大なる仁愛』は、「技術は決して中立ではない」と宣言し、個人が道徳的主体としてAI時代に参画することを呼びかけている。本記事は通諭が示す3つの行動指針と、グローバルAIガ
AnthropicがClaude Opus 4.8をリリース:コーディングと推論能力を再びアップグレード
Anthropicは2026年5月29日にClaude Opus 4.8を正式リリースし、コーディング、エージェント業務、推論、知識業務の4分野で大幅な性能向上を実現。API応答時間も前バージョンより約20%短縮された。
エボラ流行が再びコンゴ民主共和国を襲う、防疫対策は困難を極める
2026年5月、コンゴ民主共和国イトゥリ州でBundibugyo型エボラウイルスによる流行が確認された。武装紛争や脆弱な医療インフラが防疫を困難にしており、国際協調も課題となっている。
Glean、年間収益3億ドル突破、AI予算削減を切り札に
企業向けAI検索スタートアップのGleanが年間経常収益(ARR)3億ドル突破を発表、前年同期比200%成長を達成。「AI予算削減」を売り文句に巨人がひしめく市場で差別化を図っている。
Dell Q1決算が予想を上回る AIサーバー販売が757%急増、株価は30%超上昇
DellのQ1決算でAIサーバーの単四半期売上が161億ドル、前年同期比757%増を記録。全体売上と通期業績ガイダンスも上方修正され、時間外取引で株価は一時30%超上昇した。
AsanaがノーコードAIエージェント構築プラットフォームStackAIを買収
プロジェクト管理プラットフォームAsanaが、ノーコードAIエージェント構築プラットフォームStackAIの買収を発表。ドラッグ&ドロップ式のエージェント構築エンジンを統合し、AI駆動の業務オーケストレーションプラットフォームへの進化を目指
レビュー
すべてのレビューを見る →DeepSeek V4 Pro Smokeテスト、メインボードで48.7点急騰も工程判断は28.4点暴落
DeepSeek V4 Proが本日のSmoke評価で極端に分化した結果を示し、メインボードは87.99点まで急騰した一方、工程判断は10.00点に半減した。コード実行は満点を獲得したが、安定性とシステム的思考に明らかな短所が露呈している。
Claude Sonnet 4.6がメインランキング91.77点で圧倒的首位、GPT-o3は実行50点で最下位に
Smoke軽量評価の最新データで、Claude Sonnet 4.6がメインランキング91.77点で首位を獲得。一方、GPT-o3はコード実行50点という低スコアにより最下位に沈んだ。
豆包 Pro コード実行が80点暴落、メインランキングで1日に41.2点下落
豆包 Pro が本日の Smoke 評価でメインランキングが81.33点から40.12点へ41.2点下落。コード実行次元が満点100点から20点へ崩落し、単日で80点を失った。
WDCD コンプライアンス
#1
Qwen3 Max
72.5
#2
Claude Sonnet 4.6
65
#3
DeepSeek V4 Pro
62.5
#4
Gemini 2.5 Pro
60
#5
GPT-5.5
60
#6
Claude Opus 4.7
57.5
#7
GPT-o3
57.5
守約ランキング全体を見る →
Research Lab
WDCD Run #135:Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に
WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep