第１回　AI時代の自由記述分類（アフターコーディング）

人手では工数がかかる自由記述分類を、AI時代に【再現性のある形】で再設計する

はじめに

生成AIを使って自由記述を分類し、「傾向をまとめてください」と依頼する。
一見すると効率的ですが、調査業務では“報告書として納品できる品質のデータ”にならないケースが少なくありません。

特に、
・AIの再出力で結果が変わる
・カテゴリ定義が曖昧で再現性がない
・グラフの元データが存在しない
といった状況では、報告書レベルの分析（属性別クロス集計・定義の見直し・経年比較）が成立しなくなるという問題が起きます。

以下は、実際にご支援した案件をもとに再現したやり取りです。

実例：AI分類結果をそのまま使おうとしたケース

【お客様】

AIで分類してグラフまで作りました。

これをつかって分析し、報告書を作成してください。

【弊社】

グラフは画像化されていますね。

回答ごとにコードを立てた元データは残っていますか？

【お客様】

ありません。

【弊社】

それは困りましたね。

（AIの分析も再現できないし、元データもないので再集計もできない）

「それっぽい分類結果」が報告書レベルで使えない理由

今回の事例のようなAIによる“それっぽい分類結果”は、会議の速報レベルでは使えても、報告書レベルでは使い物になりません。

報告書レベルの分析（属性別クロス集計・定義の見直し・経年比較）を行うには、回答単位でフラグを立てた“再現可能なデータ構造”が欠かせません。
画像化されたグラフや、再出力で結果が変わる分類結果では、分析の土台が成立しません。

AI時代の自由記述分類を「再現性のある形」で再設計する

単なる自由記述の要約ではなく、「AIを活用した自由記述分類」を、調査業務として再現性のある形に再設計する方法について解説します。

１．そもそも自由記述分類はどのようにして行われてきたのか

人手で自由記述分類を行う場合、例えば1,000件の回答があるとすると、次のような手順で整理します。

ランダムに100件程度を抽出し、内容を精読する
回答内容の傾向をもとに、8〜15程度のカテゴリを仮設計する
全回答に対して、各カテゴリへの該当有無を判定しフラグを立てる

なおフラグの立て方には2種類あります。

単一方式	最も該当するカテゴリのみフラグを立てる（最初にでてきたカテゴリにフラグを立てる場合もございます）
複数該当方式	該当するすべてのカテゴリにフラグを立てる

この工程では回答の解釈が伴うため、担当者間でばらつきが生じやすい領域でもあります。そのため実務では、カテゴリ設計などの上流工程を研究員が担い、フラグ立て・集計といった反復作業をアシスタントが担当することで品質と効率性を担保します。

また、作業途中でカテゴリ定義の微調整も発生するため、1,000件規模の回答では通常2〜3人日程度の作業時間を要します。
特に「複数該当方式」は「単一方式」よりも判定量が増えることから作業時間がより長くなります。

２．なぜAIによる自由記述分類が注目されているのか

自由記述の分類や分析の領域では、従来「テキストマイニングツール」が用いられてきました。
これらは大量データを効率的に処理できる一方で、実務では次のような課題があります。

辞書（単語リスト）の整備が必要
分析設計が事前に固定されるため、途中の見直しが難しい
回答文脈との対応関係が直感的に把握しにくい

自由記述分類の実務は「仮の分類 → 再定義 → 再分類」という試行錯誤の繰り返しです。
そのため、単純な自動分類よりも、分類基準を変更しながら何度も同じデータに再適用できる仕組みが求められてきました。

生成AIは一般的にLLM（Large Language Model）と呼ばれ、大量のテキストを学習し、文脈全体から意味を推定できる点に特徴があります。
従来のテキストマイニング（ルールベース型）とは異なるアプローチが可能であり、自由記述分類においては有効な領域のひとつと考えられます。

ただし、その有効性は「分類精度そのもの」ではなく、どのような業務設計で使うかによって大きく変わる点が重要なポイントとなります。

３．問題はAIではなく「業務設計」にあった

AIの精度ではなく、実はAIへの依頼の仕方にありました。

自由記述ファイルをそのまま生成AIに投入し、「傾向をまとめてください」と依頼すると、AIは全体を一度に処理し、集約済みの要約やグラフだけを返します。

このため、後からカテゴリ定義を変更したり、属性別クロス集計を行ったりすることができません。

４．人間のコーダーと同じ「2段階」の動きをAIにトレースする

冒頭で示した問題は、人間が実際に行ってきた作業手順を、生成AIにトレースさせることで解消できます。
自由記述分類は本来、次の2段階で構成されています。

STEP1　カテゴリ設計

サンプル回答を読み、カテゴリ案を作成し、人間が定義を確定する

※1,000件の回答がある場合は、100件程度ずつ確認しながらカテゴリ案をブラッシュアップしていくことで、カテゴリの抜け漏れを事前に把握しやすくなり、STEP2での手戻りを減らすことができます。

STEP2　全件判定

確定したカテゴリごとに全回答を判定し、該当・非該当（1や0など）のフラグを立てる

この「カテゴリ設計 → 全件判定」という流れをAIに同じ手順で実行させることで、人手と同じ構造の再現性あるデータが得られます。

５．一括投入型と2段階トレース型の違い

AI分類には大きく2つの方式があります。

一括投入型は「分析速報・要約用途」に向いています。一方、2段階トレース型は「再現性が必要な分析用途」に適しています。

	一括投入型（ファイルまるごと投入）	2段階トレース型（本記事の手法）
処理の単位	全回答を一度に投入し、AIが集約・要約	サンプルからカテゴリを確定 →１カテゴリずつ全件判定
判定の基準	AIが暗黙のうちに設定	人間があらかじめ設計・確定
得られる成果物	傾向の要約・グラフ	回答ごとに該当・非該当フラグ（集計可能なデータ）
根拠の確認	過程がブラックボックス化しやすい	カテゴリ単位・回答単位で判定理由を確認できる

この2段階の作業は、目新しいAIアルゴリズムではありません。
むしろ、調査会社の研究員が行ってきた「サンプルを読んでカテゴリを設計し、カテゴリごとに全件を判定する」という工程を、そのまま生成AIに置き換えているだけです。

（参考）実務上の補足：なぜ「まとめて判定」ではなく「1カテゴリずつ判定」なのか

生成AIに判定させる方法としては、1件の回答に対して全カテゴリを一度に判定する「マルチラベル出力」という選択肢もあります。
処理回数が減るため、コストや時間の面ではメリットがあります。

	マルチラベル出力型（一括複数判定）	シングルタスク反復型（本記事の手法）
処理のイメージ	1回答に対し全カテゴリを一度に判定	カテゴリA→全件判定 → カテゴリB→全件判定…を繰り返す
メリット	処理回数が少なく、コスト・時間を抑えられる／作業工程がシンプル	AIのタスクが単純化され、判定精度が向上しやすい／境界事例の判定理由が明確に残る
デメリット・リスク	AIの注意力が分散し、見落とし（偽陰性）が発生しやすい／全カテゴリ分の判定理由を出力させると出力量が増えやすい	カテゴリの数だけ処理を繰り返すため、コストと時間がかかる

本記事であえて「1カテゴリずつ全件判定」を採用している理由は、生成AIの判定精度（見落としの防止）を優先するためです。

複数の判断を同時に求めると、特定カテゴリへの注意が散漫になり、該当表現を見落とすリスクが高まります。「この回答はカテゴリAに該当するか否か」という単一の問いに集中させることで、精度を担保しやすくなります。

※ どちらが正しいというより、コスト・納期・求められる精度水準に応じた使い分けです。回答数が非常に多い場合や予備的な確認で十分な場合は、マルチラベル出力型を選ぶ判断も実務的にはあり得ます。

なお、カテゴリを多階層化する分析設計や、AIによる判定精度の検証方法など、さらに踏み込んだ内容については、別稿にて改めてご紹介します。

６．まとめ

フラグ単位の再現性が担保されていない自由記述分析は、単体の報告としては成立しても、男女別といったクロス集計などが行えないためより深堀分析ができません。また経年比較・他調査との統合といった二次利用ができないため調査資産として活用が難しくなります。

生成AIを活用する場合も同様であり、「要約を得ること」と「再利用可能なデータ構造を作ること」は明確に分けて業務をすすめる必要があります。

自由記述分析では、ファイル単位の一括処理ではなく、「カテゴリ設計」と「回答単位のフラグ立て」を分離した2段階設計にすることで、初めて調査データとしての再現性が担保されます。

当社では、今回ご紹介した生成AIを活用した自由記述分類だけでなく、AI時代における調査業務全体の再設計にも取り組んでいます。単にAIを導入するのではなく、報告書品質や再現性を維持できる業務プロセスの構築を重視しています。

お問い合わせ

自由記述のアフターコーディングや調査データの集計・分析に関するご相談は、担当営業またはお問い合わせフォームよりお気軽にご連絡ください。