world-ecoregion/biomes/utils.py

import numpy as np
import tensorflow as tf
import pandas as pd
from collections import Counter
from sklearn.utils import class_weight
from constants import *
import logging
import os

logger = logging.getLogger('main')
logger.setLevel(os.environ.get('LOG_LEVEL', 'INFO'))


def normalize(v, o=None):
    if o is None:
        o = v
    return (v - np.mean(o)) / np.std(o)

def denormalize(v, o=None):
    if o is None:
        o = v

    return (v * np.std(o) + np.mean(o))

def on_ndarray(ar, o=None, fn=None):
    if o is None:
        o = ar

    # transpose: operate over columns
    tr = np.transpose(ar)
    to = np.transpose(o)
    for i in range(tr.shape[0]):
        tr[i] = fn(tr[i], to[i])

    # transpose back
    return np.transpose(tr)

def normalize_ndarray(ar, o=None):
    return on_ndarray(ar, o=o, fn=normalize)

def denormalize_ndarray(ar, o=None):
    return on_ndarray(ar, o=o, fn=denormalize)

def dataframe_to_dataset_biomes(df):
    rows = df.shape[0]

    # 8 for seasonal temp and precipitation
    # 3 for latitude, elevation and distance_to_water
    input_columns = 11 

    tf_inputs = np.empty((0, input_columns))
    tf_output = np.empty((0))

    for year in range(MIN_YEAR, MAX_YEAR + 1):
        local_inputs = list(INPUTS)
        for season in SEASONS:
            local_inputs += [
                'temp_{}_{}'.format(season, year),
                'precip_{}_{}'.format(season, year)
            ]


        local_df = df[local_inputs]

        tf_inputs = np.concatenate((tf_inputs, local_df.values), axis=0)
        tf_output = np.concatenate((tf_output, df[OUTPUT].values), axis=0)

    # balance class weights for the loss function, since the data is highly unbalanced
    num_classes = len(np.unique(tf_output))
    class_weights = class_weight.compute_class_weight('balanced', np.unique(tf_output), tf_output)
    logger.debug('class_weights %s', class_weights)

    tf_inputs = tf.cast(normalize_ndarray(tf_inputs), tf.float32)
    tf_output = tf.cast(tf_output, tf.int64)

    logger.debug('dataset size: rows=%d, input_columns=%d, num_classes=%d', int(tf_inputs.shape[0]), input_columns, num_classes)
    return int(tf_inputs.shape[0]), input_columns, num_classes, class_weights, tf.data.Dataset.from_tensor_slices((tf_inputs, tf_output))

def dataframe_to_dataset_temp(df):
    rows = df.shape[0]

    # elevation, distance_to_water, latitude, mean_temp
    input_columns = 4
    # 4 seasons
    num_classes = 4

    tf_inputs = np.empty((0, input_columns))
    tf_output = np.empty((0, num_classes))

    for year in range(MIN_YEAR, MAX_YEAR + 1):
        local_inputs = list(INPUTS)
        local_df = df[local_inputs]
        all_temps = ['temp_{}_{}'.format(season, year) for season in SEASONS]
        local_df.loc[:, 'mean_temp'] = np.mean(df[all_temps].values)

        output = all_temps

        tf_inputs = np.concatenate((tf_inputs, local_df.values), axis=0)
        tf_output = np.concatenate((tf_output, df[output].values), axis=0)

    tf_inputs = tf.cast(normalize_ndarray(tf_inputs), tf.float32)
    tf_output = tf.cast(normalize_ndarray(tf_output), tf.float32)

    logger.debug('dataset size: rows=%d, input_columns=%d, num_classes=%d', int(tf_inputs.shape[0]), input_columns, num_classes)
    return int(tf_inputs.shape[0]), input_columns, num_classes, None, tf.data.Dataset.from_tensor_slices((tf_inputs, tf_output))

def dataframe_to_dataset_precip(df):
    rows = df.shape[0]

    # elevation, distance_to_water, latitude, mean_precip
    input_columns = 4
    # 4 seasons
    num_classes = 4

    tf_inputs = np.empty((0, input_columns))
    tf_output = np.empty((0, num_classes))

    for year in range(MIN_YEAR, MAX_YEAR + 1):
        local_inputs = list(INPUTS)
        local_df = df[local_inputs]
        all_precips = ['precip_{}_{}'.format(season, year) for season in SEASONS]
        local_df.loc[:, 'mean_precip'] = np.mean(df[all_precips].values)

        output = all_precips

        tf_inputs = np.concatenate((tf_inputs, local_df.values), axis=0)
        tf_output = np.concatenate((tf_output, df[output].values), axis=0)

    tf_inputs = tf.cast(normalize_ndarray(tf_inputs), tf.float32)
    tf_output = tf.cast(normalize_ndarray(tf_output), tf.float32)

    logger.debug('dataset size: rows=%d, input_columns=%d, num_classes=%d', int(tf_inputs.shape[0]), input_columns, num_classes)
    return int(tf_inputs.shape[0]), input_columns, num_classes, None, tf.data.Dataset.from_tensor_slices((tf_inputs, tf_output))


flatten = lambda l: [item for sublist in l for item in sublist]

def chunker(seq, size):
    return (seq[pos:pos + size] for pos in range(0, len(seq), size))
feat(tf): transform dataframe to tensorflow dataset 2019-02-12 05:11:33 +00:00			`import numpy as np`
			`import tensorflow as tf`
			`import pandas as pd`
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`from collections import Counter`
			`from sklearn.utils import class_weight`
feat(tf): transform dataframe to tensorflow dataset 2019-02-12 05:11:33 +00:00			`from constants import *`
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`import logging`
			`import os`
feat(tf): transform dataframe to tensorflow dataset 2019-02-12 05:11:33 +00:00
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`logger = logging.getLogger('main')`
			`logger.setLevel(os.environ.get('LOG_LEVEL', 'INFO'))`
feat(tf): transform dataframe to tensorflow dataset 2019-02-12 05:11:33 +00:00
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`def normalize(v, o=None):`
			`if o is None:`
			`o = v`
			`return (v - np.mean(o)) / np.std(o)`

feat(web): web server and basic dashboard 2019-04-22 05:19:31 +00:00			`def denormalize(v, o=None):`
			`if o is None:`
			`o = v`

			`return (v * np.std(o) + np.mean(o))`

			`def on_ndarray(ar, o=None, fn=None):`
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`if o is None:`
			`o = ar`

			`# transpose: operate over columns`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00			`tr = np.transpose(ar)`
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`to = np.transpose(o)`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00			`for i in range(tr.shape[0]):`
feat(web): web server and basic dashboard 2019-04-22 05:19:31 +00:00			`tr[i] = fn(tr[i], to[i])`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`# transpose back`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00			`return np.transpose(tr)`

feat(web): web server and basic dashboard 2019-04-22 05:19:31 +00:00			`def normalize_ndarray(ar, o=None):`
			`return on_ndarray(ar, o=o, fn=normalize)`

			`def denormalize_ndarray(ar, o=None):`
			`return on_ndarray(ar, o=o, fn=denormalize)`

feat(tf): transform dataframe to tensorflow dataset 2019-02-12 05:11:33 +00:00			`def dataframe_to_dataset_biomes(df):`
			`rows = df.shape[0]`

			`# 8 for seasonal temp and precipitation`
			`# 3 for latitude, elevation and distance_to_water`
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`input_columns = 11`
refactor(data): include latitude longitude in columns, not indices 2019-03-05 07:59:30 +00:00
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`tf_inputs = np.empty((0, input_columns))`
feat(tf): transform dataframe to tensorflow dataset 2019-02-12 05:11:33 +00:00			`tf_output = np.empty((0))`

			`for year in range(MIN_YEAR, MAX_YEAR + 1):`
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`local_inputs = list(INPUTS)`
feat(tf): transform dataframe to tensorflow dataset 2019-02-12 05:11:33 +00:00			`for season in SEASONS:`
			`local_inputs += [`
			`'temp_{}_{}'.format(season, year),`
			`'precip_{}_{}'.format(season, year)`
			`]`


			`local_df = df[local_inputs]`

			`tf_inputs = np.concatenate((tf_inputs, local_df.values), axis=0)`
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`tf_output = np.concatenate((tf_output, df[OUTPUT].values), axis=0)`

			`# balance class weights for the loss function, since the data is highly unbalanced`
			`num_classes = len(np.unique(tf_output))`
			`class_weights = class_weight.compute_class_weight('balanced', np.unique(tf_output), tf_output)`
			`logger.debug('class_weights %s', class_weights)`
feat(tf): transform dataframe to tensorflow dataset 2019-02-12 05:11:33 +00:00
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00			`tf_inputs = tf.cast(normalize_ndarray(tf_inputs), tf.float32)`
feat(models): train models and evaluate them 2019-02-26 08:20:31 +00:00			`tf_output = tf.cast(tf_output, tf.int64)`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`logger.debug('dataset size: rows=%d, input_columns=%d, num_classes=%d', int(tf_inputs.shape[0]), input_columns, num_classes)`
			`return int(tf_inputs.shape[0]), input_columns, num_classes, class_weights, tf.data.Dataset.from_tensor_slices((tf_inputs, tf_output))`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00
fix: split temps precips to different models 2019-05-11 12:46:05 +00:00			`def dataframe_to_dataset_temp(df):`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00			`rows = df.shape[0]`

fix: split temps precips to different models 2019-05-11 12:46:05 +00:00			`# elevation, distance_to_water, latitude, mean_temp`
			`input_columns = 4`
			`# 4 seasons`
			`num_classes = 4`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`tf_inputs = np.empty((0, input_columns))`
			`tf_output = np.empty((0, num_classes))`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00
			`for year in range(MIN_YEAR, MAX_YEAR + 1):`
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`local_inputs = list(INPUTS)`
feat(web): web server and basic dashboard 2019-04-22 05:19:31 +00:00			`local_df = df[local_inputs]`
			`all_temps = ['temp_{}_{}'.format(season, year) for season in SEASONS]`
			`local_df.loc[:, 'mean_temp'] = np.mean(df[all_temps].values)`
fix: split temps precips to different models 2019-05-11 12:46:05 +00:00
			`output = all_temps`

			`tf_inputs = np.concatenate((tf_inputs, local_df.values), axis=0)`
			`tf_output = np.concatenate((tf_output, df[output].values), axis=0)`

			`tf_inputs = tf.cast(normalize_ndarray(tf_inputs), tf.float32)`
			`tf_output = tf.cast(normalize_ndarray(tf_output), tf.float32)`

			`logger.debug('dataset size: rows=%d, input_columns=%d, num_classes=%d', int(tf_inputs.shape[0]), input_columns, num_classes)`
			`return int(tf_inputs.shape[0]), input_columns, num_classes, None, tf.data.Dataset.from_tensor_slices((tf_inputs, tf_output))`

			`def dataframe_to_dataset_precip(df):`
			`rows = df.shape[0]`

			`# elevation, distance_to_water, latitude, mean_precip`
			`input_columns = 4`
			`# 4 seasons`
			`num_classes = 4`

			`tf_inputs = np.empty((0, input_columns))`
			`tf_output = np.empty((0, num_classes))`

			`for year in range(MIN_YEAR, MAX_YEAR + 1):`
			`local_inputs = list(INPUTS)`
			`local_df = df[local_inputs]`
			`all_precips = ['precip_{}_{}'.format(season, year) for season in SEASONS]`
feat(web): web server and basic dashboard 2019-04-22 05:19:31 +00:00			`local_df.loc[:, 'mean_precip'] = np.mean(df[all_precips].values)`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00
fix: split temps precips to different models 2019-05-11 12:46:05 +00:00			`output = all_precips`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00
feat(web): web server and basic dashboard 2019-04-22 05:19:31 +00:00			`tf_inputs = np.concatenate((tf_inputs, local_df.values), axis=0)`
			`tf_output = np.concatenate((tf_output, df[output].values), axis=0)`
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00
			`tf_inputs = tf.cast(normalize_ndarray(tf_inputs), tf.float32)`
fix(map-generator): improve continent generation 2019-04-24 10:30:45 +00:00			`tf_output = tf.cast(normalize_ndarray(tf_output), tf.float32)`
feat(tf): transform dataframe to tensorflow dataset 2019-02-12 05:11:33 +00:00
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`logger.debug('dataset size: rows=%d, input_columns=%d, num_classes=%d', int(tf_inputs.shape[0]), input_columns, num_classes)`
feat(web): auto-generated form 2019-04-22 07:57:20 +00:00			`return int(tf_inputs.shape[0]), input_columns, num_classes, None, tf.data.Dataset.from_tensor_slices((tf_inputs, tf_output))`
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00
fix(data.py): precipication value was same as temp 2019-02-14 09:06:09 +00:00
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`flatten = lambda l: [item for sublist in l for item in sublist]`
refactor(data): include latitude longitude in columns, not indices 2019-03-05 07:59:30 +00:00
refactor: working version with command-line utilities 2019-03-31 05:22:00 +00:00			`def chunker(seq, size):`
			`return (seq[pos:pos + size] for pos in range(0, len(seq), size))`