Python

Python 資料視覺化 - 使用 datashader

在做資料視覺化時,經常會遇到因資料量過大而無法簡單進行處理,或是執行速度過慢的問題。本文章將介紹一套Python上的資料視覺化工具datashader,能將數億個點的大資料快速生成視覺化圖形,並以New York Taxi Trip資料集為範例說明如何使用datashader繪製乘車位置分佈圖。

Isomap - Isometric Mapping

Isomap,全名為Isometric Mapping, 是一種基於Classical MDS所產生的非線性降維演算法(Nonlinear Dimensional Reduction)。 一般來說,如果資料有著線性分佈的性質,如PCA與MDS這類計算整體資料(Global)之間的關係後再進行降維的線性演算法, 都會有不錯的效果。但如果資料本身為非線性分佈,古典PCA與MDS則時常無法在降維後正確展現出資料間的關係。

Introduction to Dimension Reduction

在現實生活中,一筆資料可能會有許多欄位,如交易資料會有交易日期,時間,數量等欄位,而天氣資料會有氣溫,氣壓,濕度等,視資料屬性而定還會有超高維度資料存在(如100x100大小的灰階圖片資料可以看成是10,000維的資料,若為RGB彩色圖片就是高達30,000維的高維資料)在處理這些高維資料時會需要耗費許多時間與空間進行處理資料,且時常會包含較不重要的維度資料在其中,並增加資料複雜度。因此在進行高維資料處理時,常使用被稱為資料降維(Dimension Reduction)的技術,將高維資料轉換為低維資料,以利後續的資料處理。