文心一言に関するAIニュース | Winzheng AI ニュース

Gemini 3.1 Pro が93.57点でWDCD守約ランキング1位、ERNIE Bot 4.5は75.71点で最下位

Winzhengが実施したWDCD守約テストにおいて、Gemini 3.1 Proが93.57点で首位を獲得し、ERNIE Bot 4.5が75.71点で11モデル中最下位となった。R2干渉抵抗とR3加圧耐性が各モデルの最終順位を左右する主

WDCD 守约测试排行榜分析 Gemini 3.1 Pro

2026年6月28日 249

レビュー

ERNIE Botがメインランキングで40.3点急落、Smoke評価テストで実行・制約の両崩壊が露呈

2026年6月22日のSmoke軽量評価テストにて、GPT-5.5とGPT-o3が満点で首位に並ぶ一方、ERNIE Bot 4.5はメインランキングで前日比40.3点急落し、実行・制約の両次元で大幅な低下を記録した。

文心一言材料约束 GPT-5.5 Smoke轻量评测

2026年6月22日 354

レビュー

Smokeクイックテスト：ERNIE Bot 4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。ERNIE Bot 4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さ

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 559

レビュー

ERNIE Botの実行スコア50に暴落、Smoke軽量評価で本日メインランキングが大幅再編

ERNIE Bot 4.5の実行スコアが昨日の100から50へ半減し、メインランキングが11ポイント下落して62.96となった。GPT-o3とGPT-5.5は同時に回復し、Claude双璧が引き続き首位を独占している。

文心一言代码执行 Smoke评测 GPT-o3

2026年5月30日 428

レビュー

DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落

Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、ERNIE Botは実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。

DeepSeek V4 Pro 文心一言 Smoke轻量评测代码执行

2026年5月25日 474

レビュー

7日間Smoke簡易テスト：ERNIE Botが53点急騰、GPT-o3は-7.8で下落首位

今週7日連続のSmoke簡易テストで、ERNIE Bot 4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。

文心一言 GPT-o3 Smoke评测模型波动

2026年5月17日 674

レビュー

AIモデルに激震！ERNIE Botが24.7点急騰も誠実性崩壊、Gemini三連敗で16点ダウン

本日のSmoke軽量評価で、ERNIE Bot 4.5がメインランキング24.7点急騰の一方、誠実性評価がpassからfailへ転落。同時にGemini系列が三連敗、DeepSeek V4 Proも-16.1点と崩壊し、モデルイテレーション

GPT-5.5 文心一言代码执行材料约束

2026年5月12日 560

レビュー

WDCD周期大変動：3強そろって下落、文心のみ上昇——遵守能力はなぜ集団的に退化したのか？

Run #98のWDCDデータでは、参加した11モデルのうち3モデルが大幅下落、上昇したのは1モデルのみという、試行段階で最も非対称な周期変動が観測されました。Gemini 2.5 ProとQwen3 Maxが同時に7.5ポイント急落する一

WDCD 守约测试模型周期追踪 Gemini退步

2026年5月3日 744

レビュー

11個AIモデル週次評価：GPT-4oが素材制約で10点暴落、中国製文心が逆行上昇

YZ Indexの週次評価で、かつての王者GPT-4oが素材制約次元で10.3点暴落し最下位に転落。一方、ERNIE Bot 4.0は主要指標で唯一のプラス成長を達成した。

GPT-4o 文心一言材料约束代码执行

2026年3月24日 863

レビュー

ERNIE Bot 4.0の安定性が22点急落、その背後にある技術的隠れたリスク

ERNIE Bot 4.0は今週の評価でプログラミング能力が大幅に向上した一方、安定性スコアが52.1点から30.0点へと急落し、モデルのアップグレードプロセスに深刻な問題が存在する可能性を示している。

文心一言模型稳定性性能评测 AI测评

2026年3月22日 581

オリジナル

BaiduERNIE Bot 4.0 Turbo版重大リリース：推論速度3倍向上、中国語マルチモーダル能力が業界をリード

BaiduがERNIE Bot 4.0 Turbo版を正式リリースし、推論速度を3倍に向上させ、中国語マルチモーダル能力を強化。デモ動画が中国語SNSで急速に拡散し、開発者テストではGPT-4に匹敵する性能と評価された。

文心一言百度AI Turbo 大模型

2026年2月7日 765

文心一言 に関するニュース

Gemini 3.1 Pro が93.57点でWDCD守約ランキング1位、ERNIE Bot 4.5は75.71点で最下位

ERNIE Botがメインランキングで40.3点急落、Smoke評価テストで実行・制約の両崩壊が露呈

Smokeクイックテスト：ERNIE Bot 4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

ERNIE Botの実行スコア50に暴落、Smoke軽量評価で本日メインランキングが大幅再編

DeepSeek V4 Pro が97.08点で首位、ERNIE Botの実行スコアは半減し27.2点の暴落

7日間Smoke簡易テスト：ERNIE Botが53点急騰、GPT-o3は-7.8で下落首位

AIモデルに激震！ERNIE Botが24.7点急騰も誠実性崩壊、Gemini三連敗で16点ダウン

WDCD周期大変動：3強そろって下落、文心のみ上昇——遵守能力はなぜ集団的に退化したのか？

11個AIモデル週次評価：GPT-4oが素材制約で10点暴落、中国製文心が逆行上昇

ERNIE Bot 4.0の安定性が22点急落、その背後にある技術的隠れたリスク

BaiduERNIE Bot 4.0 Turbo版重大リリース：推論速度3倍向上、中国語マルチモーダル能力が業界をリード

文心一言に関するニュース