各プロジェクトのトップ画面右上のアイコンをクリックすると分析に関するオプションの設定が可能です。
分析タイムアウト(秒)
dataDiver が想定する標準的なデータ数、カラム数であれば、分析用データ作成時間は概ね30秒から数分の間となっています。ただし、好ましくない設定をしてしまった場合、この時間が10分以上に伸びる事がありますので、それを防ぐために予めタイムアウト設定を行っておくと安心です。しかしながら、意図的に分析用データ作成時間の掛かるデータや設定を用いる事がありますので、その際にはタイムアウト設定を長めに設定する事をお薦めします。
デフォルト値は900(秒)です。
サンプリング件数(最大10万件)
サンプリング件数を任意に指定できます。最小値は10、最大値は10万件です。デフォルト値は2万件です。
下記のしきい値、は解析結果の説明変数が多岐に渡る場合や不要と思われる説明変数が多く現れる場合に変更し、分析結果を調整するために使用します。
自動的に分類型として扱うしきい値(種類)
このしきい値は、データアップロード時の自動型判定でデータ値が文字列の場合に分類型とID型の判別に使用します。
カラムのユニーク値がしきい値以下の場合は分類型、しきい値より大きい場合はID型に分類されます。
デフォルト値は50です。
分類型で「その他」扱いするしきい値(%)
このしきい値は、分類型カラムのそれぞれのカラム値が全体に占める割合がいくつ未満であれば「その他」として集約するかの設定値です。
デフォルト値は2.5です。
設定できる最小値は1です。1以下を設定しても内部で1に再設定されます。
分類型しきい値を変更する事により、解析単位を細かく設定したり、不必要な分類型の説明変数を作ることを防げます。分析するデータの内容から、適切な数値に設定する事をお薦めします。
説明変数の数の最大値
分析結果に表示される説明変数の最大数を設定できます。
3以上100未満の整数値で設定ください。
仮説選択バイアスの補正方法
統計的推論の方法について、以下の3つから選ぶことができます。
自動:サンプルサイズが大きい場合はデータ分割、小さい場合は選択的推論を実行します。既定値です。
データ分割:仮説を選択するためのデータとp値や信頼区間を計算するためのデータに分割する方法です。シンプルな方法で信頼性が高いですが、結果が「クリア」になりにくい傾向にあります。
選択的推論:近年開発された統計手法を用いてデータ分割をせずに正確なp値や信頼区間を計算する手法です。サンプルサイズがあまり大きくない場合こちらの方が結果が「クリア」になりやすい傾向にあります。
連続値(数値型など)の変数を分類型に変換
連続値の中でも特徴のある層を説明変数とする(離散化する)場合は指定してください。
分析結果の見え方の違いについては こちら を参照してください。
■離散化しない(チェック無し)
説明変数が数値型で分析設定で「数値型の変数を分類型に変換」を選択していない場合、散布図およびバブルチャートが表示されます。
■離散化する(チェックあり)
説明変数が数値型で分析設定で「数値型の変数を分類型に変換」を選択している場合、離散化処理し分類型説明変数として扱い、棒グラフが表示されます。
このトピックへフィードバック