赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 05/25 06:00 TC
AIセキュリティのリアルタイム駆け引き:Googleでさえ手探り状態
TechCrunchの報道によれば、AIセキュリティは予測不能な対抗的脅威に直面しており、Googleを含むすべての企業が「過渡期」にあり、リアルタイムで手探りしている。業界は完璧なセキュリティではなく、レジリエントな防御体系の構築を必要と
レビュー 05/25 03:10
文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
レビュー 05/25 03:10
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
レビュー 05/25 03:10
DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、文心一言は実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
ニュース 05/24 20:00 WD
サンフランシスコ・テンダーロイン地区:ロボットが非営利団体の食事作りを引き継ぐ
サンフランシスコの非営利団体「SF Meal Share」が、ボランティア不足を補うためロボットによる自動調理システムを導入し、低所得者向けに毎日2500食を提供している事例を紹介。
ニュース 05/24 14:03 X
Anthropic Claude Mythosモデルに安全上の脆弱性が露呈 専門家が公開リスクを警告
Anthropicが開発したClaude Mythosモデルに、1万件以上のソフトウェア脆弱性を攻撃するために悪用される可能性のある重大な安全上の問題が発見された。専門家は、不適切な使用や公開展開のリスクが現在のAIツールをはるかに上回ると
ニュース 05/24 14:02 X
OpenAIが正式にS-1書類を提出しIPOを計画、AI企業の非営利から上場への道のりが加速
OpenAIが正式にS-1書類を提出し、IPOプロセスを開始する計画を発表した。これは同社が当初の非営利の使命から商業化・上場の道へと転換することを示すものである。
ニュース 05/24 14:02 X
トランプ氏がAI大統領令を保留 MuskとZuckerbergの重要な説得が政策論争を呼ぶ
トランプ前米大統領が人工知能に関する大統領令への署名を保留する決定を下し、この動きはシリコンバレーの大物であるElon MuskとMark Zuckerbergの影響を受けたと報じられている。この決定は、米国のAI規制と中米テクノロジー競争
ニュース 05/24 06:08 NF
Hark、シリーズA で7億ドル調達 評価額60億ドルに
AIハードウェアスタートアップのHarkがシリーズAで7億ドルの資金調達を完了し、評価額は60億ドルに達した。Nvidia、AMD Ventures、Intel Capitalなど複数の半導体・ソフトウェア大手が出資に参加している。
ニュース 05/24 06:07 NF
Andrew Ng氏、ホワイトハウスのグリーンカード新政策を批判 米国のAI人材競争力を弱めると指摘
スタンフォード大学教授のAndrew Ng氏が、グリーンカード申請者に米国外からの申請を義務付けるホワイトハウスの新政策を批判。家族の分離を招き、米国のAI分野における競争力を損なうと警告した。
レビュー 05/24 03:11
GPT-o3のコード実行が42.5点暴落、メインランキングは1日で18点崩壊
GPT-o3が本日のSmoke評価において、コード実行次元で90.00から47.50へ急落し、メインランキング全体も18点下落して58.08となった。コード実行の堅牢性が著しく損なわれた可能性を示唆する信号である。
レビュー 05/24 03:10
文心一言4.5、エンジニアリング判断が50から10へ急落も、メインランキングは逆に14.5上昇
文心一言4.5は本日のSmoke簡易テストでエンジニアリング判断が50点から10点へ急落したが、素材制約は55.8点から80.5点へ跳ね上がり、メインランキング総合は74点から88.48点へ上昇した。単日の側面ランキング崩壊はモデルの退化を