国内生成AI開発プロジェクト「GENIAC」の第2期に採択されたコトバテクノロジーズ、最先端の日本語音声生成モデルのプレイグランド、「Kotoba SpeechGen」β版をリリース

編集部
2024年10月29日

AIニュースの要約

株式会社コトバテクノロジーズが、最先端の日本語音声生成モデル「Kotoba SpeechGen」のβ版をリリースした。
このプレイグラウンドは、従来の日本語TTSを超える自然な音声生成が可能で、声のクローニング機能も搭載。
今後、リアルタイム性を向上させ、多言語対応も検討している。
コトバテクノロジーズは、経済産業省およびNEDOの生成AI開発プロジェクト「GENIAC」の第2期に採択された企業である。
商用利用は将来的にAPIを通じて提供される予定で、プレイグラウンドへのアクセスはウェイトリスト制。

AIニュースの背景（推測）

コトバテクノロジーズは、国内の生成AI市場において競争力を強化するため、革新的な技術を追求していると考えられる。日本語音声生成に特化した技術開発は、国内外の需要に応える形で進められ、音声アプリケーションの潜在的な市場をターゲットにしている。また、経済産業省およびNEDOの支援を受けることで、インフラやリソースの供給が安定し、より速やかに技術開発を進めている可能性が高い。その結果、国内市場のニーズに応じた製品提供ができ、国際的にも競争力を持つ存在へと成長することを狙っている。

AIニュースの内容（詳細）

コトバテクノロジーズは、2024年10月28日に「Kotoba SpeechGen」のβ版をリリースしたことを発表した。このプレイグラウンドは、最新の日本語音声生成技術を活用し、日本語のテキストを自然に音声化することができる。特に、Preset Voiceを使用することで、より流暢で自然な音声を生成することが可能となっている。

新たに追加されたボイスクローニング機能により、ユーザーは自身の声や音声ファイルをアップロードして利用でき、自分専用の音声生成体験が実現する。また、リアルタイム性の向上にも取り組んでおり、将来的には英語や東南アジアの言語など、多言語対応も視野に入れている。なお、このプレイグラウンドは商用利用には制限があり、商用利用が可能なAPIは今後公開予定である。

コトバテクノロジーズは、経済産業省とNEDOが推進する「GENIAC」の第2期に採択され、日本語及び多言語音声生成モデルの開発に向けて大規模な計算資源を用いた技術開発に取り組んでいる。同社は、40万時間にも及ぶ高品質な日本語音声データセットの構築を計画し、それに基づく音声基盤モデルの実現を目指している。この取り組みが成功することで、日本での音声アプリケーションの展開が加速することが期待される。

ビジネスで活用する方法・可能性

「Kotoba SpeechGen」の技術は、さまざまなビジネス領域で活用される可能性が高い。以下に具体的な活用方法を示す。

カスタマーサポート: 自然な音声生成により、チャットボットや自動応答システムにおいて、ユーザーに対してより親しみやすい対応を可能にする。一部の質問や問題への解決を音声で提供することで、顧客満足度を向上させることができる。
教育分野: オンライン教育やeラーニングにおいて、インタラクティブな音声コンテンツを提供することができる。例えば、教材の朗読やナレーションに利用することで、学習の効果を高めることができる。
コンテンツ制作: ポッドキャストやオーディオブックなど、音声コンテンツの制作にも役立つ。音声のカスタマイズが可能なため、ブランドやテーマに適したトーンやスタイルを持つ音声を生成することができる。
マーケティング: 自社のプロモーションや製品紹介において、より感情的に訴える音声メッセージを提供することで、消費者の関心を引くことができる。印象的なメッセージは、ブランドイメージの向上にも寄与する。
多国籍企業での活用: 英語や他の言語への対応が進めば、多国籍企業が異なる市場向けに音声コンテンツをカスタマイズすることが可能になる。これにより、グローバルなビジネス展開の一環として、各地域に適した形でコミュニケーションを行えるようになる。

以上のように、コトバテクノロジーズの「Kotoba SpeechGen」技術は、さまざまなビジネスシーンで革命を起こすポテンシャルを秘めており、将来的な応用には大きな期待が寄せられている。

国内生成AI開発プロジェクト「GENIAC」の第2期に採択されたコトバテクノロジーズ、最先端の日本語音声生成モデルのプレイグランド、「Kotoba SpeechGen」β版をリリースGENIAC採択企業が切り拓く未来。革新的な「Kotoba SpeechGen」株式会社Kotoba Technologies Japan2024年10月29日 09時20分0
株式会社Kotoba Technologies Japan(東京都千代田区、代表取締役:小島熙之、以下「コトバテクノロジーズ」)は、最先端の日本語音声生成モデルのプレイグラウンド「Kotoba SpeechGen」のβ版を10月28日に公開いたしました。

当プレイグラウンドの主な特徴は、以下の3点です。

Preset Voiceを活用し、従来の日本語TTSを超える流暢で自然な音声生成が可能です。

自分の声や音声ファイルをアップロードして利用できるボイスクローニング機能を新たに追加しました。

リアルタイム性を順次向上させ、順次、英語や東南アジアの言語などの多言語対応も予定しています。

プレイグラウンドの商用利用はできませんが、商用利用可能なAPIも順次公開予定です。プレイグラウンドへのアクセスはウェイトリスト順となります。ウェイトリストへの登録はこちらからお願い致します。

なお、当社は、経済産業省および国立研究開発法人新エネルギー・産業技術総合開発機構（以下「NEDO」）が推進する国内生成 AI 開発プロジェクト（以下「GENIAC」）の第2期に採択されています。今年2月に発表された第1.5期に続き、2度目の採択となります。日本とアジアの音声生成AIの基盤を築くため、大規模な計算資源を駆使して技術開発に邁進します。

第2期採択結果はこちら：https://www.nedo.go.jp/news/

AIプレスリリース本文はこちら
出典　PR TIMES