DATA PLATFORM

事業スピードに合わせたデータ基盤を最小構成で

データ管理

当社は創業当初よりビッグデータ時代に備え、データ基盤の開発と運用技術の研鑽に従事しておりました。当社代表および技術顧問は金融機関やサービスにおける厳密な正確性、そして慎重性を要する大規模かつデータ管理に従事して参りました。

昨今のビッグデータ化に伴いデータ管理技術は可用性や構造化データ (数値・ラベルデータ)および非構造化データ (ファイル・画像・動画・テキスト・ベクトル)の多様性と拡張性等様々な課題や要望に直面しています。更に生成AIの誕生により、社内情報に生成AIを活用するRAGが着目され、データ管理基盤およびその検索機能の重要性が再度着目されました。

検索システムというとGoogleの検索エンジンが連想されやすいですが、実際には社内データを後に検索・活用しやすいようにする社内ライフラインのように身近で重要なシステムであり、当社は管理したデータの用途に応じた検索技術を重視しています。

当社の強み

当社はビッグデータによって体現される多種多様なデータと、多種多様なその活用可能性に沿ったデータ管理技術を有しています。

構造化データ管理

複数の構造の分解して格納するリレーショナルデータベースは、最も古いデータ基盤であるものの、ACID特性と呼ばれるデータ管理システムにおける理想的な特性を持っています。現代でも重要なデータを管理する際は筆頭の候補になる上に、生成AI時代でもその検索性能は引き続き重視されると言えます。

一方で、リレーショナルデータベースは通常SQLと呼ばれる専門技術を利用する必要があり、利用は一部の技術者に限定されてしまうと考えて差し支えありません。加えて、リレーショナルデータベースは構造化データの利用が前提になっており、非構造データへの拡張性も近年増えているものの、用途によっては他のデータ管理技術を利用した方が良いケースも少なからずあります。

非構造化データ管理

例えばGoogleで扱われるデータはサイトや記事であり、その構造は不定形で予想しにくく、内容も画像や動画、テキストを主とする非構造化データが中心です。こういったデータを構造化データ管理と同様に管理することも可能ですが、管理するデータの種類や用途に応じたデータ管理システムの候補や選択肢が増えていっています。特に昨今は生成AIが注目され、テキストの検索可能性と同様に、そのデータ管理方法についてもより注目がされています。

データパイプライン設計

多くの場合にデータは静的なものでなく、動的にデータが流入します。データパイプラインは、異なる場所に保存しているデータを整形したり移動することで、自動的にデータを扱いやすい形に保存するシステムになります。外部連携窓口であるAPIを活用したり、クローリングによるデータ取得、およびCSVデータ等の直接の読み込みなどを行うケースなどがあります。

その他特殊用途におけるデータ管理

SQLに限らないデータ管理手法の総称であるNoSQLは、従来のデータベースが持つACID特性の一部を妥協することで、限定的な目的に特化したデータ管理技術を含みます。今回はそのうちの一部を紹介します。

ベクトルデータ管理

画像や言語等の非構造データを埋め込み (Embedding)と呼ばれる技術で次元削減をすることで、より効率的で検索が行いやすい形「ベクトルデータ」に落とし込むケースが増えています。ベクトルデータは従来のデータと異なる性質を持っており、それに特化したベクトルデータ管理システムが台頭しており、RAGをはじめとする活用が行われています。

データ格納特化型データ管理

データベースは「データを格納する側面」と、「データを検索可能にする側面」の両側を持っています。従来構造化データベースではこの二つを両立していましたが、本来この二側面にはトレードオフがあります。

買ってきた本を本棚にしまうことを考えてみましょう。もっとも本を早くしまう方法は、空いている本棚のスペースにとりあえず入れることです。しかし、適当に本を入れてしまうと、後でその本を探すのが大変になってしまいます。かといって、本を整頓して本棚に入れている場合、本を入れること自体に時間がかかるようになってしまいます。

データ格納特化型データ管理は、このデータ格納の速さに最適化することで、データを格納する速さをあげることができます。これは高頻度な取引が行われる金融システムや、素早いレスポンスタイムが求められるウェブシステムやアプリで有効になります。

データ検索特化型データ管理

データ検索特化型データ管理技術は逆に、データを格納する速度を下げる一方で、データ検索の際の効率を最適化するシステムです。データ分析・データ活用にはむしろこのデータ検索特化型のデータ管理が理想的です。