ニュース
チューリング、Vision & Languageモデル評価のための「Heron VLMリーダーボード」に技術提供
2024年6月13日
チューリング、Vision & Languageモデル評価のための
「Heron VLMリーダーボード」に技術提供
- ML実験管理プラットフォームを提供するWeights & Biases Japanと連携 -
完全自動運転車両の開発に取り組むTuring株式会社(東京都品川区、代表取締役:山本 一成、以下、チューリング)は、ML実験管理プラットフォームを提供するWeights & Biases Japan株式会社(以下、W&B Japan)が本日公開したVision-Languageモデル(以下、VLM)の評価のためのリーダーボード「Heron VLMリーダーボード」に技術提供を行いました。公開時点では、15を超えるVLMでHeron-Benchを含む日本語VLM評価による比較が可能になっています。
「Heron VLMリーダーボード」概要
本リーダーボードは、完全自動運転の実現に向けたマルチモーダル生成AI「Heron」を開発するチューリングと国内最大級のLLMリーダーボード「Nejumi LLMリーダーボード」を運営するW&B Japanの知見を合わせて開発しました。
チューリング独自開発の日本語VLM性能評価ベンチマーク「
Heron Bench」およびVLMの評価のために世界で広く使われている「
LLaVA Bench (In-the-Wild)」を組み合わせた総合評価により、現実世界に即した複雑な画像を用いた評価だけでなく、日本の文化的文脈に根差した評価を可能にしています。
URL:http://vlm.nejumi.ai/
インタラクティブにモデル評価結果を分析
Heron VLMリーダーボードは、Weights & Biases プラットフォームの実験管理機能を活用することで評価の再現性とトレーサビリティを担保しているほか、よりインタラクティブに評価結果を表示し、その場で分析することが可能です。平均スコアをランキング表示するだけでなく、それぞれのモデルがどのような特徴を有しているのかを捉えることができるよう設計されており、各評価軸における性能を複数のモデル間で比較するレーダーチャートや、一つ一つの評価タスクにおける入出力を可視化するテーブルなどが含まれています。
「Heron Bench」について
チューリングが独自開発した、日本語VLMの性能を評価するための汎用的なベンチマークです。Conversation、Detail、Complexの3つのカテゴリーを設定した日本特有の画像と質問のペアデータセットで構成されており、日本語VLMの性能を詳細に分析することが可能です。
URL:https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench
チューリングについて
完全自動運転車両の開発に取り組むスタートアップです。カメラから取得したデータのみでステアリング、ブレーキ、アクセルなど、運転に必要なすべての判断をAIが行うE2E (End-to-End) の自動運転AIを開発しています。高度な自動運転を実現する「生成AI」、AIを車載で動かす「半導体」、車両とAIを一体化させる「自動運転システム」の3軸の開発を同時に進めることで、2030年までに完全自動運転を実現することを目指しています。
【会社概要】
会社名:Turing株式会社
所在地:東京都品川区大崎1丁目11−2 ゲートシティ大崎 イーストタワー4階
代表者:代表取締役 山本一成
設立:2021年8月
事業内容:完全自動運転EVの開発・製造
URL:https://tur.ing/
TURING株式会社 ホームページはこちら