ChatGPT Code Interpreterで探索的データ解析(EDA)を実施
ChatGPT Code Interpreter(コードインタープリター)の一つの大きな特徴でデータサイエンティストでしか実行できなかった、分析や統計が自然言語による指示で可能になったということが謳われていましたが、今回は探索的データ解析(EDA)をCode Interpreterを利用して試してみたいと思います。
探索的データ解析(EDA)とは?
探索的データ解析(EDA)は、データ分析の初期段階で行われる一連の手法やアプローチで、EDAは、与えられたデータセットを理解し、特徴やパターンを探求するために使用されます。
データの概要把握や、データの可視化、そこからパターンや関係性の探索やデータのクレンジングなどを行います。データセットを正しく理解し、その特性や問題点を把握しながら、データの特性を理解するというものです。
データが実際どのようなものかが理解できていないと不可能な作業となります。
データを読み込んでEDAを実施
今回は、データとして以下の「Electric Vehicle Population Size History By County」を利用しました。
https://catalog.data.gov/dataset/electric-vehicle-population-size-history-by-county
ファイルを読み込ませつつ、以下のように指示
このデータをEDAしてください。
以下のようなアウトプットを示しました。
データセットは電気自動車(EV)の人口規模に関する情報をカウンティごとに提供しています。具体的には、以下の情報が含まれています:
日付(Date):データが収集された日付。
カウンティ(County):データが収集されたカウンティ名。
州(State):データが収集された州名。
車両の主要な使用目的(Vehicle Primary Use):車両が主に旅客用(Passenger)かトラック用(Truck)かを示す。
バッテリー電気自動車(Battery Electric Vehicles (BEVs)):該当のカウンティと日付でのバッテリー電気自動車の数。
プラグインハイブリッド電気自動車(Plug-In Hybrid Electric Vehicles (PHEVs)):該当のカウンティと日付でのプラグインハイブリッド電気自動車の数。
電気自動車総数(Electric Vehicle (EV) Total):該当のカウンティと日付での電気自動車の総数(BEVsとPHEVsの合計)。
非電気自動車総数(Non-Electric Vehicle Total):該当のカウンティと日付での非電気自動車の総数。
自動車総数(Total Vehicles):該当のカウンティと日付での自動車の総数(電気自動車と非電気自動車の合計)。
電気自動車の割合(Percent Electric Vehicles):自動車総数に対する電気自動車の割合。
ここから知りたい情報に基づいて抽出したいデータの指示を出してみます。
電気自動車の普及状況をわかりやすく示すグラフを出力してください。
データだけではうまく出力できないことを判別し、電気自動車の総数と非電気自動車の総数を合計することで、全体の車両数を計算し、時間経過に伴う電気自動車の全車両に対する割合をグラフ化してくれています。
何をするかが見えていれば強力なツールに
機能としては本当に様々なことが可能になりましたが、どう使うか?活用するかは人間側の意思が必要。最適な結果を導き出せるようにデータ解析の基礎や知識は必要なため、根底の理解度がツールをどのくらい使いこなせるかに直結して行きそうです。