自動車メーカー待望の百度ERNIE Botは、海外OSSの派生版か

百度は3月23日、ChatGPTの中国版と言われるERNIE Bot(文心一言)のAi画像生成機能を巡るネット上の疑念、憶測に対して回答した。

百度によると、ERNIE Botは、百度が独自に開発した大規模言語モデルであり、画像生成能力は「文心」マルチモーダル大規模モデルERNIE-ViLGによるものだと説明した。

百度は、大規模モデルのトレーニングでは、インターネットの公開データを使用しており、業界の慣例に合致していると説明したうえ、「皆さんの利用の中で絶えず学習し、成長しているので、自前の技術と製品に少しの自信と時間を与え、デマを流さないようにしてほしい」と述べた。

最近、あるブロガーはSNSに、「百度がこのほど発表したERNIE Botは、海外OSS(オープンソース)の派生版である疑いがある」と投稿した。同ブロガーは、中国語から英語に翻訳された場合、単語の意味が変わる点に着目して、わざと誤訳されやすい単語を使って、Ai画像を生成してみた。例えば「鼠標(PC周辺機器のマウス)と総線(電気信号線の束)」と入力すると、ERNIE Botで動物のネズミと車のバスが自動生成された。ブロガーは、「鼠標」と「総線」の英語が「mouse」と「bus」であり、ERNIE Botが明らかに入力された中国語を機械翻訳していると主張した。

類義するテストを複数回繰り返して、同ブロガーは、百度の人工知能とは、実は中国語の文を英単語に翻訳し、その後海外でオープンソース化されたStable Diffusionを使って画像を生成したものではないかと推測した。

これについてIT業界関係者の間では、ERNIE Botは確かに入力した中国語の文を、機械翻訳で英単語を訳してから画像を生成しているが、その理由は、オープンソースの画像や文字データの大部分が英語コンテンツであり、現時点では億単位の中国語の画像・文字データセットがない。あってもノイズが大きく、基本的にトレーニングに利用できない。業界内では海外のデータセットを使い、中国語のマッピングをしているため、このような生成効果につながっていると見方はある。

百度は、AI開発に多くの資金とリソースを費やした。ERNIE Botは海外OSSの派生版であるとの指摘は言い過ぎかもしれないが、少なくとも百度独自の技術で生み出したものではない。Aiにおいては最も困難で且つ重要なのはタグづけられたデータセットの整備である。たとえ安価なアルバイトによって手動で地道にタグ付けされたデータでも、それは独自に作ったデータベースであり、Aiの良しあしを左右する重要な要素である。百度が独自の中国語AI研究開発としてすべきことは、自ら中国語に適合したデータベースを作ることであり、他人が作った英語のデータベースをそのまま使ってトレニンーグすることは、独自に開発したとは言えない。

706