ジェネレーティブAIとは?代表的なモデル・サービスは?業務への活用方法・注意点を紹介!
これまで、AIがクリエイティブな業務をこなすのは難しいと考えられてきました。しかし、「0から1」を生み出せるジェネレーティブAIの台頭により、イラストや動画の制作、文章執筆などのクリエイティブな業務もAIがこなせるようになってきました。
しかし、企業がジェネレーティブAIをどのように活かすか、となると事業化へのロードマップ、社内ルール作成などの懸念で二の足を踏んでいる企業も少なくないようです。
本記事では、ジェネレーティブAI(生成AI)の概要や活用方法、利用に際しての危険性などを解説します。ジェネレーティブAIを試してみたい方や、事業で活用したいと考えている方は、参考にしてみてください。
ジェネレーティブAI(生成AI)とは?
ジェネレーティブAIとは、学習データの特徴やパターンから、テキスト・画像・動画など新たなコンテンツを生み出すAIです。従来、事業で用いられるAIはデータの異常を発見したり、対象物を認識したりといった、主に既存データの「認識」や「分析」で用いられることがほとんどでした。
しかしジェネレーティブAIは、全く新たなコンテンツを作り出すことができます。つまり「0から1」を生成するクリエイティブな創作活動ができるAIが、ジェネレーティブAIなのです。
ジェネレーティブAIはテキストや画像、音声、動画など、多くの媒体の作品を作り上げることができます。有名な例を挙げると、2022年11月に公開されたChatGPTはテキストを生み出すジェネレーティブAIです。
ジェネレーティブAIの活用方法
ジェネレーティブAIは、以下のような用途に利用できます。
- 画像や文章などのコンテンツ作成
- 文章の校正・要約
- プログラムのコード生成
- 文字起こし
- 単純作業の代替
- アイディアの提案
画像や文章などのコンテンツ作成
ジェネレーティブAIは、画像や文章などのオリジナルコンテンツを、ユーザーの指示通りに作成できます。これにより、メディアに掲載する記事やSNSで利用する画像、商品紹介動画などを、簡単かつ素早く制作することが可能です。
従来のような外部クリエイターとのやりとり、ロケやスタジオの手配・許可取り、スタッフやモデルのスケジュール調整なども必要ありません。コスト効率の良いコンテンツ制作が可能になります。
文章の校正・要約
テキスト系のジェネレーティブAIは、文章中の誤字や脱字、日本語の間違いを発見したり、文書の内容を要約することができます。
人間の目には見逃されがちなミスも検出できるため、質の高い文書の生成が可能です。
論文や報告書などの長いドキュメントの要約も、ジェネレーティブAIの得意分野です。内容を迅速に理解し、要点を凝縮した要約を提供することで、情報のアクセシビリティを高めます。特に、大量の文書を扱う企業や研究機関では、時間と労力の削減が期待できます。
プログラムのコード生成
学習データにプログラムが含まれているジェネレーティブAIは、指定した機能を持つプログラムのコードを作成することが可能です。指定した機能や要件に基づいてプログラムコードを自動生成する能力は、開発プロセスの迅速化に寄与します。
特に、プロトタイピングや初期段階の開発において、時間とリソースの節約が期待できます。
また、生成AIは、プログラムのエラーを発見してそれを指摘したり、ミスの手直しをしたりすることもできます。品質保証のプロセスが強化され、プロジェクトのリスクが軽減されるでしょう。
初心者から経験豊富な開発者まで、ジェネレーティブAIの支援により、開発の効率とクオリティが向上します。
文字起こし
音声認識AIと組み合わせて用いることで、文字起こしを自動化することができます。人間が音声を聞いて入力するよりも圧倒的に速くテキスト情報に変換できるため、大幅な業務時間の短縮が可能です。
また、文章の校正機能と組み合わせることで、変換精度を上げることもできます。このように、従来のAIと生成AIを組み合わせることで、更なる業務効率化が図れます。後続の分析や報告作成のプロセスもスムーズに進展するでしょう。
単純作業の代替
生成AIは、請求書の作成、イラスト制作、データ整理などの単純作業を自動化できます。これまで人手で行っていた作業をAIで代替することで、人件費の削減や業務の迅速化が実現します。
企業の特定のニーズに合わせてカスタマイズすることも可能で、ビジネスプロセスの最適化に貢献します。
アイディアの提案
生成AIは学習データを基に、新しい商品やサービスのアイディアを提案する能力を持っています。ビジネス戦略の策定やマーケティング戦略の構築にも活用できます。データ駆動の洞察に基づいて、競合分析や市場セグメンテーションなどを効率的に行うことが可能です。
また、新規事業の立案や課題解決策の提案を行ってくれます。困った時に相談すると、想像していなかったアイディアを得られるかもしれません。
このように生成AIは、オリジナルの文章や画像を作るだけでなく、クリエイティブな事柄に関する相談相手にすることもできます。
ジェネレーティブAIによく用いられるモデル
ジェネレーティブAIの世界では、様々なモデルが開発されており、それぞれに特性と得手不得手が存在します。以下のモデルがよく用いられます。
- GPT
- VAE
- 拡散モデル
それぞれの特徴を解説します。
GPT
GPTはGenerative Pretrained Transformerの略称で、OpenAIが開発した大規模言語モデルです。ChatGPTに利用されているモデルであり、初期のGPT-1から、現在ChatGPTで使われているGPT-3.5やGPT-4へと改良が進められています。
GPTでは、Transfomerという手法で次に来る単語を予測します。従来まで用いられていた手法では、分からない単語を、文章の一部の情報から予測していました。しかしTransfomerは、文章中の重要な単語を理解し、文章全体の情報を基にわからない単語を予測できます。
多くの言語に対応しており、国際的なビジネスコミュニケーションの支援も可能です。 企業の特定のニーズに合わせて、モデルのチューニングやカスタマイズが可能です。
学習データが一定時点までのものであるため、それ以降の最新情報の取得が困難な場合があることには注意が必要です。また、一般的な知識には強いですが、特定の専門分野における深い理解や分析が必要な場合、専門家によるカスタマイズが必要になることがあるでしょう。
VAE
VAEはVariational Autoencoderの略称で、画像生成に用いられる生成モデルです。訓練データの特徴を掴み、それに似た多様な画像を作成することができます。例えば、商品画像のさまざまなバリエーション作成やゲームや映画のキャラクターデザインに向いています。
VAEはオートエンコーダの一種で、エンコーダでデータを潜在空間に圧縮し、デコーダで再構築する構造を持っています。少し専門的な説明になりますが、潜在空間に分布構造を組み込むことで、データにまとまりを生み出して画像生成を行います。
この手法ゆえに、欠損データや不足データの補完が得意で、特定の特徴を操作した画像生成など、細かい制御が可能です。そのため、ぼやけた生成画像を鮮明にすることも可能で、これにより高品質な画像生成が実現されます。
ただし、訓練データの特性に強く依存する手法なので、訓練データにない特徴の画像生成は困難な場合があります。また、画像の品質によっては、大量の計算リソースが必要となることに注意しましょう。
拡散モデル
拡散モデルは、画像生成に用いられる生成モデルです。DALL・E2やStable Diffusionなどといった、多くの先進的な画像生成AIに用いられています。複雑な構造を持つ画像でも、高品質な生成が可能です。
拡散モデルは、画像にどのようにノイズを付与すると完全にノイズになるかを学習し、それを逆向きで行うことでノイズから新たな画像を作り出します。テキストや画像データから新たな画像を作り出すことも可能で、高度なクリエイティブ表現が実現されます。多様なスタイルやテーマ性の画像を生成することができるので、アート、デザイン、広告などの分野での活用が期待されます。
生成したい画像の特性に応じた訓練データの選定と調整が重要で、不適切なデータセットでは期待する結果が得られないことがあるでしょう。
ジェネレーティブAIの代表事例
https://unsplash.com/ja/%E5%86%99%E7%9C%9F/pDgyu4ALp3I
ジェネレーティブAIの代表例として、以下の4つが挙げられます。
- ChatGPT
- DALL-E2
- Whisper
- Stable Diffusion
ChatGPT
ChatGPTは、自然言語を生成するジェネレーティブAIです。OpenAIが開発した大規模言語モデルとして、2022年11月の登場以来大きな注目を浴びています。
ChatGPTは、質問に答えたり、オリジナルの文章を生成したりすることができます。基本的に無料で利用できますが、無料版はGPT-3.5のモデルまでしか利用できません。最新版のGPT-4を利用するには、月額20ドル(約2900円)の有料プランに入る必要があります。
ChatGPTにはAPIが用意されており、ChatGPTを自社開発のアプリケーションやサービスに組み込むことも可能です。APIの利用には、OpenAIのウェブサイトでアカウント(無料でも可)を作成し、APIキーを取得します。APIの利用は有料で、料金は使用量に応じて変動します。
ChatGPTはカジュアルなユーザーから、高度な自然言語処理機能を求めるビジネスプロフェッショナルまで、さまざまな用途に対応する汎用ツールとなっています。
DALL-E2
DALL-E2は、画像生成と編集に特化したジェネレーティブAIです。OpenAIが開発し、2021年にDALL·Eの後継として登場しました。テキストの説明からオリジナルのリアルな画像やアートを作成できるため、概念、属性、スタイルを組み合わせることが可能です。
DALL-E2は、画像生成だけでなく、生成した画像の編集もできるため、初めに思い通りの作品にならなくても、思い通りの作品に近づけることができます。これにより、デザインのプロトタイピングやアート作品の制作などが迅速に行えます。
DALL-E2では、2023年4月6日以前に登録したユーザーには毎月15クレジットが付与され、その分だけ無料で利用できます。現在は、115クレジットを15ドルで購入する必要があります。1クレジットでできる操作は、4枚の画像生成、もしくは1回の編集作業です。編集でもクレジットを消費するので、利用の際には注意してください。
2022年11月3日にDALL·E APIがパブリックベータ版として利用可能になりました。このAPIを通じて、開発者はDALL·E 2の機能を自分たちのアプリケーションやサービスに組み込むことができるようになります。
Whisper
Whisperは、音声データを基に文章を生成する自動音声認識(ASR)のジェネレーティブAIです。OpenAIが開発したモデルで、大規模で多様なデータセットの使用により、アクセント、背景ノイズ、専門用語への耐性が向上しています。
Whisperのオーディオデータセットの約3分の1は英語以外の言語と言われ、英語以外の元言語での書き起こし、または英語への翻訳のタスクが交互に与えられる手法がとられています。そのため、スペイン語や日本語など複数の言語での書き起こしや、それらの言語から英語への翻訳が可能です。
Whisperの利用は有料ですが、圧倒的に安価な点が大きなメリットです。通常、日本で文字起こしを企業に依頼すると、1時間で3,000円ほどかかるのが相場です。これに対し、Whisperの価格は1分辺り0.006ドル(約0.85円)であり、1時間に換算すると50円ほどです。
Whisperの高い精度と使いやすさにより、はるかに広い範囲のアプリケーションに音声インターフェースを追加できるようになると期待されています。
Stable Diffusion
Stable Diffusionは、テキストから画像を生成する深層学習モデルです。イギリスのスタートアップ会社Stability AIが開発し、2022年にリリースされました。
Stable Diffusionは、LAION-5Bという公に利用可能なデータセットで訓練されました。このデータセットは、ウェブからスクレイプされた画像テキストペアに基づいています。このデータセットは英語の画像がほとんどのため、生成された画像は西洋的な視点になりやすいとされています。
Stable Diffusionはローカル環境の他、Web上でも画像生成が可能です。また、無料で何度でも利用できるため、費用をかけずに画像を作り出すことができます。
ジェネレーティブAIの危険性
https://unsplash.com/ja/%E5%86%99%E7%9C%9F/3rcT6_NjjbU
ジェネレーティブAIは活用次第で大きな力になりますが、注意しなければならないポイントもいくつかあります。
- ディープフェイクが容易に作られる
- クリエイターの仕事が取られてしまう
- 著作権を侵害する可能性がある
ディープフェイクが容易に作られる
ジェネレーティブAIは、動画や画像をリアルに再現できます。用途によっては有効活用できますが、性能の高さゆえにディープフェイク(虚偽画像や虚偽動画)を簡単に作れてしまう特徴もあります。
実際に、声を親族に似せて電話をして金銭を要求したり、動画上の人物を他人に変えて名誉を毀損する動画を生成したりと、犯罪に使われる事例も出ています。
生成AIの存在を知らない方は、ディープフェイクと本物の見分けをつけることが難しいでしょう。そのため、法規制などの防止策や、ディープフェイクの周知などが必要になりそうです。
ジェネレーティブAIによる生成物を事業利用する場合は、「AI生成であること」を明示し、生成物が誤解を招きかねない内容、社会的に許容できない内容を含まないようチェックすることが必要です。
クリエイターの仕事が取られてしまう
生成AIを用いると、従来までクリエイターが作成していた文章や画像、動画などが簡単かつ安価に制作できます。そのため、これまでそれらの作品を制作していたクリエイターが、生成AIに仕事を奪われる可能性が高まっています。
実際に、イラストレーターの業務を画像生成AIに任せたり、ライターの業務を自然言語AIに任せたりする企業も増えてきています。よって、AIで代替可能な技術を仕事にしているクリエイターは、AIがこなせない業務の技術を上げるなどの対策が必要になるでしょう。
著作権を侵害する可能性がある
出典:文化庁「A I と 著 作 権」
現状の国内法解釈では、基本的に生成AIの生成物が著作権を侵害することはありません。しかし、生成物の依拠性と類似性が高いと常識的に判断されれば、著作権を侵害してしまう可能性があります。
そのため、有名な絵や、アニメのキャラクターなどに似ている作品が生成された場合は、生成し直すなどの対策を取るようにしましょう。
また、生成AIで制作した制作物には、機械(AI)が自動的に作ったとされるので著作権は基本的に認められません。つまり、生成物を第3者が二次使用することをコントロールできません。
ただし、文化庁の示した指針によると、プロンプト(AIへの指示)の表現内容に人による工夫が認められて、生成に人が関与したことが明らかな場合には著作物と認められる可能性があります。生成物の著作権を確保したい場合には、生成の経緯を保管して、必要であれば明示できるルール整備が必要でしょう。
出典:文化庁「A I と 著 作 権」
これらの判断は専門家でも意見が割れるほど難しい問題ですが、生成AIを利用する際には覚えておきましょう。
まとめ
本記事では、ジェネレーティブAIの概要や活用方法、利用に際しての危険性などを解説しました。
ジェネレーティブAIは、これまで国内で出遅れが指摘されていたDX(デジタルトランスフォーメーション)を一気に世界基準に引き上げ、さらにトップランナーへと押し出すほどの力があるとして、政府でも大いに期待されている技術です。
これまでDX化を満足に推進できていないと感じている方は、これを機にジェネレーティブAIの導入を検討してみてはいかがでしょうか。