ERNIE Bot 4.5のコード実行が100から50へ急落、メインランキングで1日に11ポイント低下
ERNIE Bot 4.5は本日のSmoke快速テストにおいて、メインランキングが74点から62.96点へと11ポイント下落し、コード実行スコアは100点から50点へ崩壊した。単日の変動か、それとも実質的な退化か、引き続き観察が必要である。
ERNIE Bot 4.5は本日のSmoke快速テストにおいて、メインランキングが74点から62.96点へと11ポイント下落し、コード実行スコアは100点から50点へ崩壊した。単日の変動か、それとも実質的な退化か、引き続き観察が必要である。
ERNIE Bot 4.5は本日のSmoke簡易テストでエンジニアリング判断が50点から10点へ急落したが、素材制約は55.8点から80.5点へ跳ね上がり、メインランキング総合は74点から88.48点へ上昇した。単日の側面ランキング崩壊はモ
ERNIE Bot 4.5は本日のSmoke速報テストで、主榜の得点が小幅上昇したものの、誠実性評価がpassからfailに転落。コード実行は42.5点急騰した一方、工程判断と任務表現は崩壊的な下落を見せた。
最新のWinzheng AI評価データによると、ERNIE Bot 4.0はプログラミング能力が41.4点向上した一方で、安定性が22.1点急落し、百度が性能向上のために安定性を犠牲にしている可能性が明らかになった。
ERNIE Bot 4.0がPythonの基礎的な辞書内包表記で完全に失敗し、リスト形式で出力した上に謎の数字まで追加するという前代未聞のAI劣化事例が発生した。
BaiduがERNIE Bot 4.0 Turbo版を正式リリースし、推論速度を3倍に向上させ、中国語マルチモーダル能力を強化。デモ動画が中国語SNSで急速に拡散し、開発者テストではGPT-4に匹敵する性能と評価された。