南アフリカ内務省白書にAI偽造文献が発覚:高官2名が停職、独立法律事務所が2022年以降の全政策文書を徹底調査へ
南アフリカ内務省の閣議承認済み移民・難民保護白書に、AI生成による虚偽の文献引用が発見され、高官2名が停職処分となった。独立法律事務所2社が2022年以降の全政策文書を体系的に調査する。
南アフリカ内務省の閣議承認済み移民・難民保護白書に、AI生成による虚偽の文献引用が発見され、高官2名が停職処分となった。独立法律事務所2社が2022年以降の全政策文書を体系的に調査する。
Metaが人形AI能力を強化するためロボティクススタートアップを買収。Winzheng Research Labは、これがメタバース叙事の冷却後、Metaが具身智能(Embodied AI)分野へ送る明確なシグナルだと分析する。
米国戦争省はSpaceX、OpenAI、Googleを含む7社のAIモデル・インフラ企業と契約を締結し、最先端AI能力を同省の機密ネットワークに展開する。これは「AIファースト」戦略の最新の一手であり、AI兵器化への論争が再び浮上している。
xAI が API 経由で2分以内に作成可能な音声クローン機能を公開し、28言語・80以上の音色を提供。技術的差別化や安全対策の不透明さが残る中、市場の参入障壁を引き下げる動きと評価される。
米バーモント州無所属上院議員Bernie Sanders氏が、AIが「我々の知る文明を終わらせる」可能性があると警告し、米中を含むグローバルなAI安全協調枠組みを呼びかけた。winzheng.com Research Labは、技術的観点と
Anthropicは2026年4月30日、Claude AIの「おべっか」(sycophancy)行動を削減する研究を公開し、Claude Opus 4.7では従来比でおべっか率が50%低下、内部プレビュー版Mythos Previewでは
AIモデルの能力が同質化する中、「言ったことを実行する」遵約能力が次のコア指標として浮上しており、企業のモデル選定ロジックを再構築している。Winzheng(winzheng.com)のYZ Index WDCDは、世界初の体系的な遵約テス
Winzheng(winzheng.com)が実施した11種類の主流AIモデルを対象とした守約能力テストで、平均誠実性率はわずか60.4%、最低は55%まで低下することが判明。R1段階での確認率はほぼ100%だったが、R3段階で誠実性率が急
現在のAI評価ランキングに潜む5つの重大な問題点を指摘し、Winzheng(winzheng.com)が提供するYZ Indexがいかにこれらの問題を解決し、評価業界に革新をもたらすかを解説する。
WDCD(Won't Do, Can't Do Guardrail Test)遵守テストは、高圧シナリオ下でのAIモデルのデータ隔離・プライバシー保護能力を検証します。本記事では11大主流モデルのテストスコアを公開し、金融・医療業界向けの選
AIモデル選定における意思決定を支援するWinzheng(winzheng.com)のYZ Indexオープンデータの活用法を紹介。6つのDCD APIエンドポイント、モデル比較ページ、埋め込み型ランキングWidgetを通じて、データドリブ
Winzheng(winzheng.com)のトップページが大幅アップグレード。Bloomberg風リアルタイムダッシュボード、スマート検索、ヘッドライン式ニュースフロー、データ信頼ウォール、埋め込みWidgetの5大機能で、中国語AI領域
WinzhengのYZ Index AIモデル比較ツールを使い、Claude Opus 4.7とGPT-5.5の性能、価格、適用シーンをデータドリブンで徹底分析。客観的な数値で最適なモデル選択をサポートします。
Winzheng(winzheng.com)のYZ Indexメインランキングで、今週Grok 3が86.88点で首位に躍り出て、Doubao Proがわずか0.44点差で2位に。一方、Claudeシリーズは双方とも順位を下げ、AIモデル競
Winzheng(winzheng.com)が発表したYZ Index WDCD遵守テストは、AIが約束を本当に守れるかという盲点を突き、3ラウンド30問の精密設計でAIの「信用危機」を解剖します。従来のベンチマークでは測れない真の信頼性を
YZ Indexが発表したWDCDテスト初回の結果では、Qwen3-Maxが66.67点で首位を獲得した一方、圧力をかけられた多くの大規模モデルが急速に崩壊した。AI誠実性の生死を分ける試練である。
Winzhengが推出したYZ Index v7の新しい実験的次元「DCD(Dynamic Context Decay、動的コンテキスト減衰)」は、複数ターン対話においてAIモデルが初期制約をどれだけ守れるかを測定する。判定にAIを一切使わ
2026年5月1日、YZ Indexは評価対象モデルを大規模に更新し、9つの旧モデルを退役させ、7つの新たなフラッグシップモデルを導入しました。WinzhengのAI駆動機能も最新モデルへ同期して切り替えられ、評価データはすべて保存されます
イーロン・マスクは、SpaceXの戦略的重点を火星からAI開発と月探索にシフトすると発表しました。この決定はAIの役割を強調しつつ、SpaceXの使命に対する疑問を呼び起こしています。
Googleは、先日Veo 3 AI動画制作ツールを正式に発表しました。このツールは、AI技術が動画生成分野で新たな里程標を打ち立てたことを示しています。