仕事&技術&留学&生活

AI, DataScience, Python, JavaScript, Java, C, Matlab, RaspberryPI, Hardware, Software...

ようこそ!履歴書はここです。

Welcome! This is my resume.

📈Clustering

機械学習

機械学習とは大量のデータに対し、そこに潜むパターンを覚えさせ(学習)、未知のデータを判断するルール(モデル)を獲得させることである。

クラスター分析

クラスター分析(clustering)は機械学習中の「教師なし学習」に所属しています。

クラスタリングは、データ同士の類似度をもとにデータをグループ化するデータ解析の手法です。この手法を使うことで、データ自身がどのようなクラスターから構成されているのかがわかり、データの構造に関するさまざまな知見を得ること(マーケットセグメンテーション、異常検知、SNS分析)ができます。

存在する問題

類似度メトリックデータ表現。例えば、数字の1と2どれが0と近い?答えA: 1です。1引く0は1, 2引く0は2,1が小さいので1と0が近いです。 答えB: 0=00, 1=01, 2=10, 1と2が共に0と比べて一つの1があり、残り部分が同じ、ですから同じ近いです。これが類似度問題です。

データ表現では1はただの数字1と二進法01が違う意味で表示されています。結局はクラスター分析の結果も違いました。

解決

Neural Networkを使って、 データ表現を統一し、適応的な類似度測度が特定の問題で特定の類似度を指定して、クラスターの精度を高めてきました。