• 斯坦福/伯克利第三期暑期學術課程

  • 工程導論:李培根院士

  • 科学思维与研究方法:国家教学名师 余龙江教授

2018休斯敦大學暑期實習項目(9)

作者:時間:2018-09-26點擊數:編輯:劉豔紅

 

綜述:

本周是2018年華中科技大學同學來休斯頓大學ECE學院進行暑期實習的第八周。在導師們和學長學姐們的指導和帶領下大家的科研項目也都在有條不紊的開展著,期間有課題進展的喜悅,也有實驗不順的苦惱。相信大家可以克服困難,努力前行。

個人實習日志:

UH實習日志|趙隽逸

本周的實驗又有了新的進展,按照老師的指導,我們嘗試了線性激光照射磁流體,實驗現象與預期基本一致。光線可以像一把鍘刀一樣將磁流體劈開。我們希望能夠設計一套setup將該現象運用到實際當中,這樣才能真正發揮科研的價值。而這其實也正是當今科研工作者所面臨的問題之一,高校科研與工業界脫節嚴重,很多科研成果都是實驗室界別的,無法應用到工業界當中。而對于科研工作者和科學家來說,他們的終結目標就是用自己的科研成果來改善世界,造福全人類,而非單純的爲了文章而科研。然而現在很多的科研工作者並沒有意識到這一點,科研俨然變成了一種文章競賽,至于具有多大的應用價值完全不去關心。

另外本周末是中秋節。爲了慶祝中秋節,我們周日一起去到師兄家開了個火鍋party,晚上又去了老板家。老板家的昙花正好盛開,正所謂昙花一現,第一此見到盛開的昙花,實際的綻放時間也就3個小時。師母爲我們做了月餅,還有從家門口湖裏打上來的魚。老板家是一個2層的house,很是氣派,據說在德州買這樣一套house也並不是很貴,可能這樣的價格在國內連一個apartment都買不起,因爲美國人並不炒房,並不會把買房子作爲一種投資賺錢的方式,這與國內是有巨大差別的

图片包含 人员, 餐桌, 盘子, 美食已生成极高可信度的说明

 

UH實習日志|李宛澤

 仔細想想,這已經是到這裏的第九周了,實習可以說已經過去了三分之二,再過一個月就要離開了。可以說有點不舍,也有些著急。今天主要還是改了改之前的方案,由于實驗室的打印機存在誤差,我只能一點一點地調整尺寸進行配合。另外,今天我試著使用了示波器,將fishfinder傳感器的輸入信號顯示出來,但是效果並不理想,完全看不出什麽來。實驗室的法國學長答應明天幫我看看。

 

周二Becker教授和我們進行了之前打碎鋼化玻璃杯的實驗。我原本是想盡量模擬出傳感在水中的狀態,在貼近真實工作環境的情況下進行實驗,因此該實驗一直沒有進行,但是Becker教授直接用金剛鑽把被子打透了,最後杯子雖然成功地碎掉了,但是這個過程的困難程度還是超出了我的想象,因此不得不放棄了這個方案。晚上,和實驗室學長前往附近的河邊測試了設備,我們利用兩個三角架和滑輪搭起了一條橫跨整條河的繩子,然後將傳感器挂在繩子上,從河的一側拉到另一側,記錄數據。但是由于將繩子從一側拉到另一側的操作比較複雜而且在測試途中繩子經常纏在一起,再加之去的比較晚,因此並沒有完成預計的測試任務。

另外周二我在實驗室學長的幫助下將fishfinder傳感器的波形調了出來,但是進一步如何測試還沒有想法。

本周接下來的時間裏,我將主要的精力投入到了整體式外殼的研制當中。並做了一些實驗,然而效果並不十分理想,原本希望能夠崩成碎片的外殼只分成了兩片,經過分析,原因可能是這幾條:1,由于零件采用3D打印制作,層層堆積,存在縱向和橫向屈服極限不同的狀況,2,實驗采用的是從外面泵入空氣,這樣的話零件的內壓就會逐漸上升直至將外殼最薄弱處擊破,此處一旦被擊破,氣壓立即下降,自然無法碎成碎片。可以考慮在內部加一層更強勁的內膽。在這個過程當中我也體驗到了開發一個新産品的無奈。實驗室裏主要的加工途徑就是3D打印,但是由于3D打印本身的性質,導致零件的水密性,氣密性較差,而且還存在各向異性的問題。另外,實驗室的3D打印機精度不高,若想進行螺紋配合的話要進行多次測試才能成功。然而,若是采用其他的加工方式則要耗時良久,因此也只能硬著頭皮繼續了。

 

 

UH實習日志|關晨宇

離回國還有不足一個月了。

本周做的工作和之前接手的兩個項目都無關,原因在于前兩者都陷入了停滯狀態。鉛沈積的實驗因爲發現了一些有趣的現象被教授暫時停止,他想從重新考慮實驗機理並重新設計實驗。Cuwafer上沈積的實驗自從上周樣品送到了lam公司檢測審核之後也一直沒有消息,我多次詢問印度小哥關于tem的進展時他都對此搖搖頭並表示無奈。

但實驗總是要繼續的。印度小哥因此帶我轉戰另外一個課題,這是他在碩士階段從事的工作的一部分。雖然之前的工作已經整理完成並發表論文,但他似乎對這篇論文並非十分滿意,只是因爲要畢業答辯的原因才匆匆交了一個半成品。如今正好逮著機會去探索一下論文之外另外一個idea。坦白講,初次聽到這個故事時心裏還時很佩服這種科研精神的。

但這樣的理想主義很快被現實擊敗了。因爲考慮到要設計探索新的實驗,我們打算重新設計之前的裝備。于是編軟件到改電路的工作都被提上了日程。我負責的是labview軟件部分的設計修改,正好借機感受了一把這個算是另類的編程軟件。它采用的更像是初學編程時用的流程框圖而非英文代碼,因此在編程的過程中可以更加直觀地看到每一段之間的相互聯系,自然上手起來也就更容易一些了。印度小哥負責重新設計並焊電路,這裏我倒是挺疑惑他一個同樣學高分子工程的人怎麽做起電路工作來也是如信手拈來一般簡單,可能這是印式教育學習歐美教育的一個成功案例?

整個裝置的重新設計工作在周四完成,還好留給我們兩天的時間來運行設備(爲了科研這小哥毅然放棄了周六的節假日,當然同樣爲科研獻身的還有實習生我)。不過兩天時間運行的三個實驗裏失敗了兩次,原因總還是裝置不太穩定,裝置成功開車後竟然在正常運行階段狀況百出,這是我們沒曾想到的事情。但樂觀一點講,總歸是得了一組數據呢。

祝下周好運吧!

 

貼張成果圖吧~

 

 

 

UH實習日志|梁子雲

這一周中,我們的任務任然是對醫療圖片進行預處理.圖像庫得圖片數量巨大,內容繁雜.我們采用坐標法將病變的位置標了出來.又在外面加上了限定框准確的找出病變位置.

下面是針對該圖像庫的一些想法和實踐.

Classifying Chest X-Rays Using Deep Learning

Background

In October 2017, the National Institute of Health open sourced 112,000+ images of chest chest x-rays. Now known as ChestXray14, this dataset was opened in order to allow clinicians to make better diagnostic decisions for patients with various lung diseases.

Objective

·         Train a convolutional neural network to detect and classify diagnoses of patients.

·         Couple structured and unstructured datasets together into a dual classifier.

Dataset

The ChestXray14 dataset consists of both images and structured data.

The image dataset consists of 112,000+ images, which consist of 30,000 patients. Some patients have multiple scans, which will be taken into consideration. All images are originally 1024 x 1024 pixels.

Due to data sourcing & corruption issues, my image dataset consists of 10,000 of the original 112,000 images. All data is used for the structured model.

Additionally, structured data is also given to us for each image. This dataset includes features such as age, number of follow up visits, AP vs PA scan, and the patient gender.

Exploratory Data Analysis

When researching the labels, there are 709 original, unique categories present. On further examination, the labels are hierarchical. For example, some labels are only "Emphysema", while others are "Emphysema | Cardiac Issues".

The average age is 58 years old. However, about 400 patients are labeled as months, 1 of them is labeled in days.

Pipeline

Two pipelines were created for each dataset. Each script is labeled as either "Structured" or "CNN", which indicates which data pipeline the script is part of.

Description

Script

Model

EDA

eda.py

Structured

Resize Images

resize_images.py

CNN

Reconcile Labels

reconcile_labels.py

CNN

Convert Images to   Arrays

image_to_array.py

CNN

CNN Model

cnn.py

CNN

Structured Data   Model

model.py

Structured

Preprocessing

First, the labels were changed to reflect single categories, as opposed to the hierarchical categorical labels in the original data set. This reduces the number of categories from 709 to 15 categories. The label reduction takes its queue from the Stanford data scientists, who reduced the labels in the same way.

Irrelevant columns were also removed. These columns either had zero variance, or provided minimal information on the patient diagnosis.

Finally, anyone whose age was given in months (M) or days (D) was removed. The amount of data removed is minimal, and does not affect the analysis.

Model (Structured Data)

The structured data is trained using a gradient boosted classifier. The random forest classifier was also used. When comparing the results, both were nearly equal. The GBM classifier was used due to its speed over the random forest, and due to producing equal or better results to the random forest.

Results (Structured Data)

Measurement

Score

Model

H2O Gradient   Boosting Estimator

Log Loss

1.670

MSE

0.510

RMSE

0.714

R^2

0.967

Mean Per-Class   Error

0.933

Model (Convolutional Neural Network)

The CNN was trained using Keras, with the TensorFlow backend.

The model is similar to the VGG architectures; 2 to 3 convolution layers are used in each set of layers, followed by a pooling layer.

Dropout is used in the fully connected layers only, which slightly improved the results.

Results (Convolutional Neural Network)

Measurement

Score

Accuracy

0.5456

Precision

0.306

Recall

0.553

F1

0.394

Explanations

Per the blog post from Luke Oakden-Rayner, there are multiple problems with this dataset. The most notable are the images (and structured data) being labeled incorrectly. He also notes the annotators did not look at the images.

This became evident when training both models. Despite regularization, and rectifying the class imbalances, both models learned to return meaningless predictions. Per the above statement, this can be attributed to the incorrect labeling of the images.

Due to these findings, per Mr. Oakden-Rayner, and my own analysis: "I believe the ChestXray14 dataset, as it exists now, is not fit for training medical AI systems to do diagnostic work."

This doesn't discount convolutional neural networks from being able to predict diseases, but this is dependent on the labels being correct and accurate. Once this becomes rectified, and the images are correctly labeled, further analysis can resume against the ChestXray14 dataset.

 

在這周的空余時間中 ,我们去了休斯頓博物馆.看到了栩栩如生的瑪雅文明和古埃及文化遺留下來的珍貴文物.也看到了很多恐龍及化石等.

 

UH實習日志|熊雨琴

新的一周,老師上周去國外開了四天的會議,所以我就將上周處理過的、有標簽的圖片根據分類把它們放入不同的文件夾,並且讀取成hf5文件。這樣之後,我建立好模型之後,可以直接將數據喂入模型裏,並且用來計算loss的也是同樣shape的數據。

但是,這周我的進度非常緩慢,一個原因是數據集實在是太大,另外是數據的分類移動操作很繁複。第一個原因直接造成的影響是電腦的內存出現了告急,垃圾箱的東西刪除不了,電腦出現了死機狀態,這個狀況浪費了我很多時間,也消耗了我許多耐心。第二個狀況主要是我自己造成的,在寫好腳本後沒有認真檢查並調試,主要是沒有好好了解數據庫。所以當數據出現了出乎我意料之外的形式後,程序意外中斷,圖片的移動也中斷。這直接就造成了非常糟糕的局面,一部分的圖片已經抽出來了,但還剩了另一部分還留在那裏。最後,我只能用笨辦法,把已經抽出來的圖片放回去,再用改寫好的程序運行。但是,最終我還是成功的把圖片預處理了,下周就可以直接訓練模型了。

這周,星期五在實驗室作報告的是隔壁實驗室的學生,講解的論文是一種計算近似分布的算法,也可用作一種解碼器。

 



                                                  


下面是比較直觀的示例:

 

圖中z通過p函數得到了x就是左圖的分散分布,然後我們想得到的是q函數使得x能夠得到z。這就是一個解碼過程。然後,文章裏也介紹了應用該算法能得到的結果。

下圖是把mnist數據進行數據的轉換的結果

         

 

 

UH實習日志|李昌

本周是来到休斯頓的第9周,本周在原有工作的基礎上,繼續對Li2DHBQ進行改性的工作。

 

在實驗方面,本周的工作是和一位博士生師兄一起繼續對Li2DHBQ進行改性研究。我們在上周提高了Li2DHBQ的容量的基礎上,希望提高其循環穩定性和能量密度。我們做的主要工作還是從電極的制作和電池的安裝方面入手,對每一個細節進行把控。比較遺憾的是,雖然有的電池測試出了,相比之前有了一定提高,但仍然無法達到我的要求。而大部分電池卻幾乎沒有任何提高。這種情況也是我之前經常碰到的,即使在一個實驗中改變一些變量,也無法得到不同的結果和數據。這個過程需要不斷的嘗試和分析。希望這最後的一個月中順利達到我們的目標。

 

本周另外就是參加了一個seminar,主講人是锂電的傳奇人物,LiCoO2的發明人John B. Goodenough老先生,我的导师和另一位物理學院的大牛两人在seminar那天從UT-Austin開車把老人家接過來的。大師就是大師!開場前就很高興的和每一個想和他合影的年輕人合影。整個speech過程也是中氣十足!看得出來老人家身體還是很不錯的。我自己全程聚精會神的聽報告,最後鼓起勇氣提了一個問題,老先生很高興的提出了他的看法,並對我給予鼓勵!這次seminar對我來說可能是另一個起點!

 

 

下周五就是自己暑期的總結彙報了,雖然組裏基本都是中國人,但需要用英文做speech。希望自己能順利的完成! 

 

UH實習日志|張紫荊

本周是来到休斯頓的第九周,周一首先向实验室的姚教授做了weekly report,報告最近的實驗進展。但是在自己整理自己的數據的過程中,就能發現其實自己那一部分的實驗內容做得還並不完善。這兩周我主要是在完成AQPTO的電導率測試這一部分的內容。我懷疑放電過程中有其他惰性物質産生,但是産生的惰性物質並不可逆,並且,由我們的加載方式測試電導率其主要決定因素爲中間活物的質量。由于我覺得得出結論和彙報這一環節實驗數據已經可以看出趨勢,所以當時彙報報告的時候沒有進一步處理數據,但姚老師對我的彙報不是十分滿意,建議我要將數據進行進一步的處理,這樣才可以比較嚴密地佐證我的觀點。我也接受了姚教授的建議,決定在下一次周報的時候花更多時間來對已有的數據經行分析,而不是將過多時間用于做實驗上。

在这个星期我还和国内的小伙伴做了一次有趣的互动,因为材料學院在本周进行奖学金的评选,而辅导员说支持视频答辩的方式,于是我自己在公寓录制了一个奖学金答辩的视频,发回国内,在班内答辩的现场由班长组织同学们一起观看,就想我还在现场一样。最后我也是由同学们投票获得了科创奖学金。已经快三个月没有见到班里的同学,十分想念大家,现在保研的同学也已经有了着落,找工作和考研的同学还在奋斗当中,我在这里也算和大家并肩作战,一起努力。

本周我花費了大量的時間來准備GRE的考試,在這個過程當中背單詞,練習閱讀和作文,分配好時間和做好學習計劃都十分重要。從心態上,我認爲把GRE不單單看做一次考試,看作一次對于英語能力的提升這是一種比較健康積極的態度,這樣才不會過分糾結于考試的結果。最後預祝我GRE考試一切順利~

 

 

 

 

 

常用系統與鏈接/LINK

湖北省武汉市洪山区珞喻路1037号 华中科技大學启明學院 邮编:430074   电话:027-87558300 027-87793421   传真:027-87793423  邮箱:qiming@hust.edu.cn